CN106503022A

CN106503022A - 推送推荐信息的方法和装置

Info

Publication number: CN106503022A
Application number: CN201510567428.9A
Authority: CN
Inventors: 石川; 贺鹏; 易玲玲; 张志强
Original assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2015-09-08
Filing date: 2015-09-08
Publication date: 2017-03-15
Anticipated expiration: 2035-09-08
Also published as: US20180020250A1; US10609433B2; WO2017041541A1; CN106503022B

Abstract

本发明涉及一种推送推荐信息的方法和装置，所述方法包括：获取异质信息网络中连接候选用户和目标用户的元路径；所述元路径包括所述候选用户和候选推荐对象间的具有属性值的连接；获取所述目标用户和所述候选用户相对于所述元路径的用户相似度；根据所述候选用户和候选推荐对象间的连接的属性值、所述元路径的属性值约束条件以及所述用户相似度，估计所述候选推荐对象和所述目标用户间的连接的属性值；当估计的属性值满足推荐条件时，向所述目标用户对应的终端发送所述候选推荐对象的推荐信息。本发明提供的推送推荐信息的方法和装置，不仅考虑了目标用户的社交关系，还考虑了目标用户与候选推荐对象之间量化的关系，从而使得推送结果更加准确。

Description

推送推荐信息的方法和装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种推送推荐信息的方法和装置。

背景技术

通过向用户候选推荐对象，比如向用户推荐电影、音乐、书籍、好友、群组或者商品，使得用户无需主动搜索就可以获得相应被候选推荐对象的信息，为用户被动获取信息提供了一种途径。目前的一种推送推荐信息的方法主要是基于用户的社交关系来实现的，比如若用户A观看了电影M，且用户A与用户B是好友关系，那么就会将电影M推荐给用户B。

然而，目前的推送推荐信息的方法仅考虑了用户之间的社交关系，但具有社交关系的用户之间并不一定具有相同的推荐需求。比如用户A和用户B是好友关系，但用户A和用户B可能有完全不同的观影偏好，这样将用户A观看过的电影M推荐给用户B就是不准确的。可见，目前基于社交关系的推送推荐信息的方法的推荐结果并不准确，亟须改进。

发明内容

基于此，有必要针对目前基于社交关系的推送推荐信息的方法的推荐结果不准确的问题，提供一种推送推荐信息的方法和装置。

一种推送推荐信息的方法，所述方法包括：

获取异质信息网络中连接候选用户和目标用户的元路径；所述元路径包括所述候选用户和候选推荐对象间的具有属性值的连接；

获取所述目标用户和所述候选用户相对于所述元路径的用户相似度；

根据所述候选用户和候选推荐对象间的连接的属性值、所述元路径的属性值约束条件以及所述用户相似度，估计所述候选推荐对象和所述目标用户间的连接的属性值；

当估计的属性值满足推荐条件时，向所述目标用户对应的终端发送所述候选推荐对象的推荐信息。

一种推送推荐信息的装置，所述装置包括：

元路径获取模块，用于获取异质信息网络中连接候选用户和目标用户的元路径；所述元路径包括所述候选用户和候选推荐对象间的具有属性值的连接；

用户相似度获取模块，用于获取所述目标用户和所述候选用户相对于所述元路径的用户相似度；

属性值估计模块，用于根据所述候选用户和候选推荐对象间的连接的属性值、所述元路径的属性值约束条件以及所述用户相似度，估计所述候选推荐对象和所述目标用户间的连接的属性值；

推送模块，用于当估计的属性值满足推荐条件时，向所述目标用户对应的终端发送所述候选推荐对象的推荐信息。

上述推送推荐信息的方法和装置，通过一种新型的异质信息网络来实现对象的推荐，该异质信息网络包括连接候选用户和目标用户的元路径，可以表示出目标用户和候选用户间的社交关系。该元路径中候选用户和候选推荐对象间的连接具有属性值，以对候选用户和候选推荐对象间的关系进行量化。在获取到目标用户和候选用户相对于元路径的用户相似度之后，就可以根据该用户相似度结合候选用户和候选推荐对象间的连接的属性值以及属性值约束条件来估计候选推荐对象和目标用户间的连接的属性值，估计出的属性值可反映出目标用户和候选推荐对象间经过量化的关系。这样在利用异质信息网络来进行推荐时，不仅考虑了目标用户的社交关系，还将目标用户与候选推荐对象之间的关系通过相应的属性值进行精确的量化，从而使得推送结果更加准确。

附图说明

图1为一个实施例中用于推荐电影的异质信息网络的网络模式示意图；

图2为一个实施例中用于推荐电影的带属性值的异质信息网络的示意图；

图3为一个实施例中推荐系统的应用环境图；

图4为一个实施例中用于实现推送推荐信息的方法的服务器的结构示意图；

图5为一个实施例中推送推荐信息的方法的流程示意图；

图6为一个实施例中获取目标用户和候选用户相对于元路径的用户相似度的步骤的流程示意图；

图7为一个实施例中不带属性值的元路径和带属性值的元路径下计算用户相似度的对比图；

图8为一个实施例中根据候选用户和候选推荐对象间的连接的属性值、元路径的属性值约束条件以及用户相似度，估计候选推荐对象和目标用户间的连接的属性值的步骤的流程示意图；

图9为一个实施例中推送推荐信息的装置的结构框图；

图10为另一个实施例中推送推荐信息的装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了便于理解本发明提供的推送推荐信息的方法，先对异质信息网络的相关概念进行解释说明。参照图1，异质信息网络的底层数据结构是一张有向图，异质信息网络中包含了不同类型的对象和连接，而对象之间的连接代表了不同的关系。异质性与丰富的信息使得异质信息网络在很多场景里成为一个更好的数据表达形式。元路径是异质信息网络中一个独有的特性，它通过两个对象类型间的关系序列连接网络中的两个对象，被广泛地应用于探索丰富的语义信息。用户、用户属性、候选推荐对象以及候选推荐对象的属性都可以作为异质信息网络中的对象。连接表示相连接的对象间的关系。

异质信息网络可用于推荐电影，这种情况下异质信息网络包括了不同类型的对象，比如用户和电影；还包括了这些对象之间的各种关系，如观影信息、社交网络以及对象的属性信息。异质信息网络可以有效整合各种可能对推荐有用的信息。此外，探索网络中对象和关系的不同语义，可以揭示对象间微妙的关系。

例如，图1中的元路径“用户-电影-用户”表示看过相同电影的用户，这个元路径可以被用于基于观影记录的相似用户检索。如果根据这条元路径推荐电影，就会推荐那些被与目标用户有相同观影记录的其他用户看过的电影。类似地，基于元路径“用户-兴趣小组-用户”可以找到具有相似兴趣爱好的用户。因此，我们可以根据连接用户的不同元路径找到相似用户，然后直接推荐这些相似用户喜欢的推荐对象。进而，合理地设置不同的元路径可以实现不同的推荐模型。

然而，常规的异质信息网络和元路径并不考虑连接上的属性值，但用于推荐电影的异质信息网络可能包含带有属性值的连接。具体来说，用户会给他看过的电影打一个1至5之间的评分值(如图1中用户与电影间的连接所示)，越高的评分值表示用户越喜欢这个电影。如果不考虑评分值大小，相似用户检索可能会出现不准确的结果。例如，基于路径“用户-电影-用户”，汤姆与玛丽或鲍勃的相似度是相同的，这是因为他们都观看了相同的电影。然而，他们可能会因为完全不同的兴趣而给出不一样的评分值。事实上，汤姆和鲍勃对相同的电影打了非常高的评分值，因此基于评分值来看，他们是相似的。而玛丽则有完全不同的口味，这是因为她一点都不喜欢这些电影。常规的元路径并不考虑连接上的属性值，因此不能揭示这些微妙的差别。然而，这些差别是非常重要的，尤其是在候选推荐对象时。因此，我们需要扩展现有的异质信息网络和元路径等概念来引入连接上的属性值。

具体定义异质信息网络，给定一个网络模式其中包含一个对象类型集合一个连接对象对的关系集合以及关系上的属性值集合带属性值的信息网络是一个有向图G＝(V,E,W)，其中包含一个对象类型映射函数一个连接类型映射函数ψ:以及一个属性值类型映射函数θ:每一个对象v∈V属于一个特定的对象类型每一个连接e∈E属于一个特定的关系每一个属性值w∈W属于一个特定的属性值类型当对象类型且关系类型时，可称为同质信息网络。当对象类型(或关系类型)且属性值类型时，网络可称为不带属性值的异质信息网络。当对象类型(或关系类型)且属性值类型时，网络可被称为带属性值的异质信息网络。

常规的异质信息网络是不带属性值的，即网络中的关系没有属性值或不考虑这些属性值。对于带属性值的异质信息网络来说，网络中的某些关系上带有属性值，这些属性值可能是连续的或是离散的。连续的属性值可以转换成离散的属性值处理。比如，在用于推荐电影的异质信息网络中，用户可以为看过的电影打一个1到5之间的评分值；在科学文献的异质信息网络中，作者与论文间的关系可以取不同的属性值来表示该作者是论文的第几作者。

参照图2，提供了一种用于推荐电影的带属性值的异质信息网络，图2展示了它的网络模式。这个异质信息网络包括了六种不同对象类型的对象(如用户、电影、兴趣小组、演员、导演以及电影类型)和它们之间的关系，对象间的连接表示不同的关系。例如，用户间的连接表示社交关系，用户和电影间的连接表示评分关系。此外，用户和电影间的评分关系上还带有一种取值范围为1至5间的整数的属性值。

异质信息网络中的两个对象可以通过不同的元路径连接，而这些路径有不同的意义。例如在图2中，用户之间可以通过“用户-用户(简称UU)”，“用户-群组-用户”(简称UGU)，“用户-电影-用户”(简称UMU)等路径连接。这些元路径是对象类型间的一个关系序列。

接下来定义带属性值的异质网络中的元路径：元路径是指连接上带有属性值约束的元路径，可以表示成(也可简写成)，其中下标l表示元路径的编号。如果关系Re的连接上有属性值，那么属性值函数δ(Re)是关系Re上的属性值的集合，否则δ(Re)是一个空集。表示A_l和A_l+1间的关系Re_l是基于属性值δ_l(Re_l)的。属性值函数上的属性值约束条件是属性值函数间的一个关联约束集合。如果元路径上的所有属性值函数都是空集(相应的属性值约束条件也是空集)，那么这样的元路径被称为不带属性值的元路径，否则就称为带属性值的元路径或者扩展元路径。

以图2为例，用户U和电影M之间的评分关系的评分值可取值1-5。元路径(即U(1)M)表示用户对电影评1分，其中隐含着用户不喜欢该电影的意思。元路径(即U(1,2)M(1,2)U)表示与目标用户不喜欢相同电影的候选用户，而不带属性值的元路径UMU则只可以反映有相同观影记录的用户。此外，通过灵活地设置关联约束，可以限制元路径中不同关系上的属性值。参照图1，例如，元路径U(i)M(j)U|i＝j表示与目标用户对相同电影有完全相同评分值的用户，在这一条元路径下，可以容易地发现汤姆与鲍勃相似，但他们与玛丽不相似。

如图3所示，在一个实施例中，提供了一种推荐系统，包括通过网络连接的服务器302和终端304。服务器302可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群。终端304可以是台式计算机或者移动终端，移动终端包括手机、智能手表、平板电脑以及PDA(个人数字助理)中的至少一种。

如图4所示，在一个实施例中，服务器302包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中处理器具有计算功能和控制服务器302工作的功能，该处理器被配置为执行一种推送推荐信息的方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种。非易失性存储介质存储有操作系统和推送推荐信息的装置，该推送推荐信息的装置用于实现一种推送推荐信息的方法。网络接口用于连接到网络与终端304通信。

如图5所示，在一个实施例中，提供了一种推送推荐信息的方法，本实施例以该方法应用于上述图3和图4中的服务器302来举例说明。

步骤502，获取异质信息网络中连接候选用户和目标用户的元路径；该元路径包括候选用户和候选推荐对象间的具有属性值的连接。

具体地，异质信息网络中包括各种类型的对象，对象至少包括候选用户、目标用户和候选推荐对象，各对象间的连接表示相连接的对象之间的关系。这里的一个用户是自然人映射成为的一个数据对象，目标用户表示推荐信息的接收方，候选用户则是关系和属性值已知的用户。候选推荐对象是指可被推荐给目标用户的对象，包括电影、音乐、书籍、好友、群组以及商品中的至少一种。

异质信息网络包括元路径，该元路径连接候选用户和目标用户，且包括候选推荐对象。元路径的对象类型是对称的，比如，在如图2所示的异质信息网络中，元路径可以是“用户-群组-用户”、“用户-电影-用户”、“用户-电影-电影类型-电影-用户”、“用户-用户-用户”以及“用户-电影-导演-电影-用户”等中的至少一种。

步骤504，获取目标用户和候选用户相对于元路径的用户相似度。

相似度是指相似性度量，表示两个对象相似的程度。目标用户和候选用户相对于元路径的用户相似度，是基于该元路径所计算出的目标用户和候选用户间的相似度。由于太长的元路径没有意义且会产生不好的相似度，因此可以限定元路径的长度不超过4。元路径的长度与元路径中连接的数量相等。

在一个实施例中，步骤504包括：根据目标用户和候选用户间相对于元路径的各条原子元路径的相似度，以获取目标用户和候选用户相对于元路径的用户相似度。

其中，若元路径中的属性值函数δ_l(Re_l)取一个固定的值，那么这样的路径就被称为原子元路径。一个元路径是所有满足该元路径的属性值约束条件的原子元路径的集合。对于一条原子元路径，现有的相似性度量方法就可以被直接使用。现有的相似性度量方法比如PathSim(Y.Sun,J.Han,X.Yan,P.Yu,and T.Wu.Pathsim:Meta path-based top-k similaritysearch in heterogeneous information networks.In VLDB,pages 992–1003,2011)、PCRW(N.Lao and W.Cohen.Fast query execution for retrieval models based onpath constrained random walks.In KDD,pages 881–888,2010)和HeteSim(C.Shi,X.Kong,Y.Huang,P.S.Yu,and B.Wu.Hetesim:A general framework for relevancemeasure in heterogeneous networks.IEEE Transactions on Knowledge and DataEngineering,26(10):2479–2492,2014)。

步骤506，根据候选用户和候选推荐对象间的连接的属性值、元路径的属性值约束条件以及用户相似度，估计候选推荐对象和目标用户间的连接的属性值。

具体地，元路径还包括属性值约束条件，用于约束该元路径上候选用户和候选推荐对象间的属性值，以及，候选推荐对象和目标用户间的连接的属性值这两种属性值之间的数学关系。该属性值约束条件可以是该两种属性值相等或者相差在预设范围内。其中两种属性值相等，是严格的属性值约束，使得推荐结果更加准确；而两种属性值相差在预设范围内，则可以挖掘出更宽泛的元路径语义。

以元路径U(i)M(j)U|i＝j为例，属性值i和属性值j是取值为1-5的变量，且属性值i和属性值j必须满足属性值约束条件：i＝j。或者，以元路径U(i)M(j)U||i-j|≤1)为例，属性值i和属性值j必须满足属性值约束条件：|i-j|≤1。

这样用户相似度可以反映出候选用户和目标用户的相似程度，从而可用来确定相应候选用户对应的属性值在估计候选推荐对象和目标用户间的连接的属性值时考虑的程度。属性值约束条件可用来限定估计的属性值的具体值，使得估计的属性值符合该元路径所表达的语义。

步骤508，当估计的属性值满足推荐条件时，向目标用户对应的终端发送候选推荐对象的推荐信息。

具体地，推荐条件是是否向目标用户推荐相应的候选推荐对象的判断条件，推荐条件比如可以是估计的属性值大于预设阈值，或者估计的属性值等于预设阈值或者估计的属性值小于预设阈值，具体根据属性值的含义和推荐需求来决定。

比如，若属性值表示用户对电影的评分值，如果评分值是与用户对电影的态度正相关的，即用户越喜欢电影评分值越高，那么就会在当估计的属性值大于等于预设阈值时，向目标用户对应的终端发送候选推荐对象的推荐信息。如果评分值是与用户对电影的态度负相关的，即用户越喜欢电影评分值越低，那么就会在当估计的属性值小于预设阈值时，向目标用户对应的终端发送候选推荐对象的推荐信息。预设阈值可以根据推荐精度要求灵活配置。

推荐信息可以包括候选推荐对象的描述信息，还可以包括候选推荐对象的访问地址。比如当候选推荐对象为电影时，描述信息可以包括电影名称、电影概述、导演、演员以及宣传海报等信息，访问地址则可以是购票网站的访问地址或者在线视频网站的访问地址。

上述推送推荐信息的方法，通过一种新型的异质信息网络来实现对象的推荐，该异质信息网络包括连接候选用户和目标用户的元路径，可以表示出目标用户和候选用户间的社交关系。该元路径中候选用户和候选推荐对象间的连接具有属性值，以对候选用户和候选推荐对象间的关系进行量化。在获取到目标用户和候选用户相对于元路径的用户相似度之后，就可以根据该用户相似度结合候选用户和候选推荐对象间的连接的属性值以及属性值约束条件来估计候选推荐对象和目标用户间的连接的属性值，估计出的属性值可反映出目标用户和候选推荐对象间经过量化的关系。这样在利用异质信息网络来进行推荐时，不仅考虑了目标用户的社交关系，还考虑了目标用户与候选推荐对象之间量化的关系，从而使得推送结果更加准确。

如图6所示，在一个实施例中，步骤504具体包括以下步骤：

步骤602，根据元路径的属性值约束条件将元路径拆分为多条原子元路径。

具体地，对于一条元路径可在满足属性值约束条件的条件下遍历属性值的离散取值范围，从而拆分出多条原子元路径。拆分出的原子元路径的数量与离散取值范围及属性值约束条件相关。

举例说明，以图2所示的异质信息网络为例，U(1)M(1)U和U(1)M(2)U都是原子元路径。元路径U(i)M(j)U|i＝j可以看成是5条原子元路径的集合，可以拆分出5个原子元路径，即U(1)M(1)U、U(2)M(2)U、U(3)M(3)U、U(4)M(4)U和U(5)M(5)U。

步骤604，获取目标用户和候选用户间相对于各条原子元路径的相似度。

具体地，可以采用PathSim、PCRW以及HeteSim这些相似性度量方法中的任意一种来计算目标用户和候选用户间相对于各条原子元路径的相似度。其中采用PathSim计算相似度时，具体先沿着原子元路径计算连接目标用户和候选用户的路径实例数量，然后对这个数量进行规则化，以获得相应的相似度。

步骤606，根据获取的相对于各条原子元路径的相似度计算目标用户和候选用户相对于元路径的用户相似度。

相对于各条原子元路径的相似度也就是基于各条原子元路径的相似度。由于元路径可以拆分为一组相应的原子元路径，基于元路径的用户相似度可以看成是基于对应的所有原子元路径的相似度的综合相似度。用户相似度可以采用求和或者求加权和的方式获得。

在一个实施例中，步骤606包括：计算获取的相对于各条原子元路径的相似度的和；将相似度的和直接或者进行正相关运算后作为目标用户和候选用户相对于元路径的用户相似度。

具体地，在计算出目标用户和候选用户相对于各条原子元路径的相似度后，将元路径的所有的原子元路径相对应的相似度求和。然后可将这些相似度的和直接作为目标用户和候选用户相对于元路径的用户相似度，也可以对这些相似度的和进行正相关运算后作为目标用户和候选用户相对于元路径的用户相似度。其中正相关运算是指因变量与自变量的变化趋势一致的运算，比如加上或减去或乘以或除以一个正值。正相关运算包括规则化处理，采用PathSim和HeteSim这两种相似性度量方法计算出的用户相似度需要对用户相似度进行规则化处理，以限定计算出的相似度的取值范围。

这里以用于推荐电影的异质信息网络来举例说明计算用户相似度的过程。参照图7，用户u₁、u₂和u₃都观看了电影m₁和电影m₂，并给出了相应的评分值，如图7中的评分值矩阵。参照图7上半部分，在传统的不带属性值的元路径UMU中，不考虑这些评分值，只考虑是否观看了相应的电影，这样采用PathSim计算出的相似度矩阵表示u₁、u₂和u₃两两间的相似度都是相等的。

参照图7下半部分，相比之下，带属性值的元路径U(i)M(j)U|i＝j被拆分为5条原子元路径，每条原子元路径上的属性值是固定的。这样就可以根据该原子元路径上u₁、u₂和u₃是否分别对电影m₁和电影m₂有评分值，从而直接采用PathSim计算出每条原子元路径上u₁、u₂和u₃两两间的相似度。然后将不同原子元路径下u₁、u₂和u₃两两间的相似度分别求和并进行规则化，就可以获得元路径U(i)M(j)U|i＝j下的相似度矩阵。可以看出只有用户u₁和用户u₂是相似的，因为用户u₁和用户u₂对电影有相同的观影偏好。

如图8所示，在一个实施例中，步骤506具体包括以下步骤：

步骤802，获取目标用户和候选推荐对象间的连接的属性值的离散取值范围。

具体地，假设用户集合U，候选用户v和目标用户u均属于用户集合U；候选推荐对象的集合|X|，候选推荐对象x∈|X|；表示元路径的集合；R∈R^|U|×|X|是属性值矩阵，R_u,x∈R表示目标用户u与候选推荐对象x的属性值；属性值R_u,x的离散取值范围为1到N的正整数，比如N可以取5。R表示实数集。

步骤804，对于离散取值范围内的每个取值，分别获取具有与取值满足属性值约束条件的属性值的候选用户和候选推荐对象间的连接，根据获取的连接所对应的候选用户与目标用户间的用户相似度计算取值对应的属性值强度。

具体地，假设S∈R^|U|×|U|是用户相似度矩阵，表示用户集合U中两两用户之间的相似度，其中表示目标用户u和候选用户v相对于元路径的用户相似度。这里定义属性值强度Q∈R^|U|×|X|×N，其中表示在给定路径下目标用户u与候选推荐对象x的连接的属性值为r的强度。属性值强度与用户相似度相关；属性值强度还与具有满足属性值约束条件的属性值的候选用户v的数量相关，当属性值约束条件为两种属性值相等时，此时属性值强度与属性值为r的候选用户v的数量相关。可采用下述公式(1)计算：

公式(1)中E_v,x,r表示候选用户v是否与候选推荐对象x的连接的属性值为r，若是则E_v,x,r为1，否则为0。此处仅以属性值约束条件为两种属性值相等时进行举例，当属性值约束条件为其它情况时可相应修改E_v,x,r为仅在R_v,x与r满足属性值约束条件时值为1。

这样对应于离散取值范围内的每个取值r，分别获取元路径中具有与取值r满足属性值约束条件的属性值的连接所连接的候选用户v与目标用户u间的用户相似度并求和，获得与取值r对应的属性值强度

步骤806，将离散取值范围内的各个取值分别以相应的属性值强度为权重计算加权平均值。

具体地，将1到N的各个取值r分别乘以相应的属性值强度进行加权来计算加权平均值。在一个实施例中，还可以对属性值强度进行规则化处理后，将离散取值范围内的各个取值分别以相应的规则化的属性值强度为权重计算加权平均值。对属性值强度进行规则化处理具体为：用属性值强度除以相应元路径下所有属性值强度的和。

步骤808，根据计算出的加权平均值获得候选推荐对象和目标用户间的连接的估计的属性值。

具体地，当仅存在一条元路径时，步骤806计算出的加权平均值可以直接作为估计的属性值。具体估计的属性值可采用以下公式(2)来计算：

其中，表示在元路径下候选推荐对象x和目标用户u间的连接的估计的属性值，N表示离散取值范围的上限，表示与取值r对应的属性值强度，表示与取值k对应的属性值强度。

本实施例中，可以实现根据给定的一条元路径来预测目标用户和候选推荐对象间连接的属性值，从而向目标用户推荐满足推荐条件的候选推荐对象。而且，公式(2)有一个额外的优势，即它可以消除不同元路径下计算得到的用户相似度的偏倚。考虑到基于不同元路径计算得到的用户相似度有不同的取值范围，这样会使得不同元路径间的相似度计算和属性值强度难以比较，公式(2)中的规则化属性值强度可以消除取值范围的差异性。

在一个实施例中，步骤808包括：将各个元路径下计算出的加权平均值分别乘以相应的元路径的路径权重以计算加权平均值，获得候选推荐对象和目标用户间的连接的估计的属性值。

具体地，为所有用户对每一条元路径设置一个统一的路径权重，表示用户对这条元路径的偏好。具体如公式(3)：

其中，其中w^(l)表示元路径的路径权重。基于所有元路径的综合的估计的属性值可以用每一条元路径上的估计的属性值的加权平均值来表示。经过目标优化后获得的各条元路径的路径权重的和为1，因此就是将各个元路径下计算出的加权平均值分别乘以相应的元路径的路径权重以计算加权平均值。

为了使得估计的属性值矩阵接近于真实的属性值矩阵R，这里基于真实的属性值和估计的属性值间的平方误差定义了一个目标函数，如公式(4)：

其中，符号⊙表示矩阵的阿达马乘积，即对应元素的乘积；||·||_p表示矩阵的p范数。Y表示一个指示矩阵，Y_u,x＝1表示目标用户u与候选推荐对象x的连接有属性值，否则Y_u,x＝0；λ₀是控制参数。s.t.表示约束条件。在已知目标用户和候选推荐对象的连接的真实的属性值的情况下，可以通过优化上述公式(4)的目标函数来求解路径权重向量

在一个实施例中，步骤808包括：将各个元路径下计算出的加权平均值分别乘以与目标用户和相应的元路径对应的路径权重以计算加权平均值，获得候选推荐对象和目标用户间的连接的估计的属性值。

具体地，考虑到在很多现实的应用场景中，每个用户都有自己的个性化的兴趣偏好，统一的路径权重不能为用户提供个性化推荐。为了实现个性化推荐，可以为每个用户设置路径权重向量。假设路径权重矩阵表示为其中每个元素表示与目标用户u和路径对应的路径权重。列向量W^(l)∈R^|U|×1表示所有用户在路径下的路径权重向量。因此估计的属性值矩阵表示目标用户u在综合所有元路径下与候选推荐对象v间的连接的属性值。存在公式(5)：

再定义一个目标函数，如公式(6)：

其中，符号⊙表示矩阵的阿达马乘积，即对应元素的乘积；||·||_p表示矩阵的p范数。Y表示一个指示矩阵，Y_u,x＝1表示目标用户u与候选推荐对象x的连接有属性值，否则Y_u,x＝0；λ₀是控制参数；diag(W^(l))表示由向量W^(l)转化成的对角矩阵。s.t.表示约束条件。在已知目标用户u和候选推荐对象x的连接的真实的属性值的情况下，可以通过优化上述公式(6)的目标函数来求解路径权重矩阵W。

在一个实施例中，该推送推荐信息的方法还包括：获取候选推荐对象和目标用户间的连接的真实的属性值；将与目标用户和元路径对应的路径权重初始化；根据用户相似度，朝趋近于与候选用户和元路径对应的路径权重的平均值的方向调整初始化的路径权重，使得真实的属性值和估计的属性值的差距满足最小化条件。

具体地，尽管公式(6)考虑到了用户个性化的路径权重，但是对那些只有少量属性值信息的用户很难进行有效的权重学习。需要学习的权重一共有而训练的样本数则远小于|U|×|X|。训练样本经常不足以进行权重学习，这对于那些冷启动用户和物品来说尤其严重。用户的路径权重与其相似用户的路径权重应该比较一致。对于那些只有少量属性值的用户来说，他们的路径权重可以从那些与他们相似的其他用户的路径权重中学习得到，这是因为基于元路径的用户相似度对于这些用户来说更加有效。

将与目标用户和元路径对应的路径权重初始化，具体可初始化为0或者大于0的值，然后朝趋近于与候选用户和元路径对应的路径权重的平均值的方向调整初始化的路径权重，趋近的速度与用户相似度正相关，用户相似度越大则趋近越快，用户相似度越低则趋近越慢。当真实的属性值和估计的属性值的差距满足最小化条件时停止调整。最小化条件可以采用上述公式(4)或者(6)或者下述的公式(9)。

因此，定义路径权重正则化项，如公式(7)：

其中|U|表示用户总数，表示扩展路径总数，表示与目标用户u和路径对应的路径权重，表示与候选用户v和路径对应的路径权重，是基于路径且经过规则化后的目标用户u和候选用户v的用户相似度。为了方便，路径权重正则化项可以用以下公式(8)的矩阵形式表示：

其中，W^(l)是路径权重矩阵，是基于路径且经过规则化后的用户相似度矩阵，||·||₂表示矩阵的2范数。

在上述公式(6)的基础上，增加路径权重正则化项，得到如以下公式(9)的目标函数：

其中符号⊙表示矩阵的阿达马乘积，即对应元素的乘积；||·||_p表示矩阵的p范数；Y表示一个指示矩阵，Y_u,x＝1表示目标用户u与候选推荐对象x的连接有属性值，否则Y_u,x＝0；λ₀是控制参数；λ₁是另一个控制参数；W^(l)表示所有用户在路径下的路径权重向量；diag(W^(l))表示由向量W^(l)转化成的对角矩阵；W表示所有用户的路径权重矩阵；表示估计的基于元路径的属性值矩阵，R表示真实的属性值矩阵。

上述公式(9)是一个非负的二次规划问题，即非负矩阵分解的一种简单形式，可以使用解决带非负界限约束优化问题的梯度投影法来进行优化求解，解决带非负界限约束优化问题的梯度投影法可参考“C.J.Lin.Projected gradientmethods for non-negative matrix factorization.In Neural Computation,pages2756–2279,2007”。公式(9)对的梯度为：

其中符号T表示转置。的更新公式如公式(11)：

其中α是步长，可以根据需要设置。

具体可通过以下步骤(1)至步骤(7)来学习与目标用户和元路径对应的路径权重。步骤(1)至步骤(7)可称为SemRec方法(Semantic path basedpersonalized Recommendation method，基于语义路径的个性化推荐方法)。

步骤(1)，获取带属性值的异质信息网络G、连接用户的元路径集合控制参数λ₀、控制参数λ₁、参数更新时的步长α以及收敛阈值∈。

步骤(2)，相对于元路径集合中的每条元路径，分别计算用户相似度矩阵S^(l)、属性值强度矩阵Q^(l)和估计的属性值矩阵

步骤(3)，初始化路径权重矩阵W＞0。

重复执行以下步骤(4)、(5)和(6)，直至满足|W-W_old|＜∈。

步骤(4)，

步骤(5)，计算

步骤(6)，

步骤(7)，输出所有用户的路径权重矩阵W。

其中W_old:＝W表示将W赋值给W_old，表示求取公式(9)的偏微分，表示取0和之间的最大值，|W-W_old|＜∈表示相邻两次迭代计算的W相差小于收敛阈值∈。

从目标函数中可以发现，统一的路径权重学习方法(如公式(4)中的)是一种特殊的个性化权重学习方法(公式(6)中的)，即所有用户在路径下的路径权重(即W^(l))都是相等的。此外，这两种权重学习方法都是带路径权重正则化项的权重学习方法的特例。优化的目标函数在λ₁为0时即转变成在λ₁趋于+∞时即转变成因此控制参数λ₁实际上控制了个性化的水平，小的λ₁表示更强烈的用户个性化路径权重，但是这样会使得权重学习变得非常困难。因此现实的应用需要根据应用场景设置一个合适的λ₁。

在一个实施例中，候选推荐对象为网络资源；属性值为评分值。其中网络资源包括电影、音频以及小说等可从网络获取的资源，评分值可用来反映用户对网络资源的量化的态度。

为了验证带属性值的异质信息网络的推荐效果，从网络上爬取了两个数据集。第一个数据集包含了13367个用户对象用户、12677部电影以及1068278个1-5的评分值。第一个数据集还包含了用户对象用户的社交关系以及用户对象用户和电影的属性信息。第二个数据集包含用户对象用户对本地商户的评分值，以及用户对象用户和商户的属性信息。这个数据集包含16239个用户对象用户、14284个本地商户以及198397个1-5的评分值。表1是两个数据集的详细统计信息。两个数据集有一些不一样的性质，第一个数据集的评分值关系更密集但社交关系非常稀疏，而第二个数据集的评分值关系比较稀疏但社交关系更密集。

表1：

这里使用了两种一般的评估指标，平均方根误差(RMSE)和平均绝对误差(MAE)来评估评估计属性值的质量。

其中R_test表示整个测试集，这里将一个数据集分成训练集和测试集，训练集用来训练带属性值的异质信息网络，测试集用来测试训练过的异质信息网络的效果。较小的MAE或RMSE表示更好的效果。

为了展示提出的SemRec方法的有效性，比较了SemRec的四种变种方法。除了带路径权重规则化项的个性化路径权重学习方法(称为SemRec_Reg)以外，我们还考虑了三个SemRec的特殊版本：基于单条元路径的方法(称为SemRec_Sgl)，对所有用户学习统一路径权重的方法(称为SemRec_All)，以及对每个用户学习个性化路径权重的方法(称为SemRec_Ind)。

由于太长的元路径没有意义且会产生不好的相似度，因此这里对每个数据集都使用了5条长度不超过4的元路径。表2展示了这些带权或不带权的元路径。在SemRec中使用PathSim来计算用户相似度。SemRec中的参数λ₀设置成0.01，λ₁设置成10³。

表2：

第一个数据集	第二个数据集
		UGU	UU
U(i)M(j)U\|i＝j	UCoU
		U(i)MDM(j)U\|i＝j	U(i)B(j)U\|i＝j
U(i)MAM(j)U\|i＝j	U(i)BCaB(j)U\|i＝j
		U(i)MTM(j)U\|i＝j	U(i)BCiB(j)U\|i＝j

对于第一个数据集，设置了不同的训练数据比例(20％，40％，60％，80％)来展示不同数据稀疏度下的对比结果。训练数据比例为20％表示用户-候选推荐对象评分值矩阵中有20％的评分值作为训练集进行模型训练，预测剩下的80％的评分值。第一个数据集有更密集的评分值关系。而第二个数据集的评分值关系更稀疏，因此在第二个数据集上使用更多的数据作训练集(60％，70％，80％，90％)。对每个实验结果，按给定的比例独立随机的划分了10次训练集和测试集，并以平均值作为表3所示的结果。

表3：

通过分析表3的测试结果，不同版本的SemRec有不同的性能表现。一般情况下，多条路径的SemRec(如SemRec_All和SemRec_Reg)比单一路径的SemRec(即SemRec_Sgl)有更好的效果，但SemRec_Ind除外，这表示SemRec的路径权重学习方法可以有效地整合不同路径上产生的相似度信息。SemRec_Ind由于评分值的稀疏性，其推荐效果在大部分情况下比SemRec_All的效果更差。此外，SemRec_Reg在所有情况下都可以达到最好的效果。这是因为SemRec_Reg不仅实现了所有用户的个性化路径权重学习，还使用路径权重正则化来避免了评分值稀疏性带来的问题。

此外，记录了学习过程中这些方法的平均运行时间。四个版本的SemRec随着路径权重学习方法的复杂度增加，运行时间也变得更长。SemRec_Sgl和SemRec_All是非常快，可以被直接应用到在线学习上。SemRec_Ind和SemRec_Reg运行时间也是可以接受的。在现实应用中，可以根据需要选择一个合适的SemRec方法来平衡效率和性能。

如图9所示，在一个实施例中，提供了一种推送推荐信息的装置900，具有实现上述各个实施例的推送推荐信息的方法的功能模块。该推送推荐信息的装置900包括：元路径获取模块901、用户相似度获取模块902、属性值估计模块903和推送模块904。

元路径获取模块901，用于获取异质信息网络中连接候选用户和目标用户的元路径；元路径包括候选用户和候选推荐对象间的具有属性值的连接。

用户相似度获取模块902，用于获取目标用户和候选用户相对于元路径的用户相似度。

属性值估计模块903，用于根据候选用户和候选推荐对象间的连接的属性值、元路径的属性值约束条件以及用户相似度，估计候选推荐对象和目标用户间的连接的属性值。

推送模块904，用于当估计的属性值满足推荐条件时，向目标用户对应的终端发送候选推荐对象的推荐信息。

如图10所示，在一个实施例中，用户相似度获取模块902包括：拆分模块902a、相似度计算模块902b和用户相似度合成模块902c。

拆分模块902a，用于根据元路径的属性值约束条件将元路径拆分为多条原子元路径。

相似度计算模块902b，用于获取目标用户和候选用户间相对于各条原子元路径的相似度。

用户相似度合成模块902c，用于根据获取的相对于各条原子元路径的相似度计算目标用户和候选用户相对于元路径的用户相似度。

在一个实施例中，用户相似度合成模块902c还用于计算获取的相对于各条原子元路径的相似度的和；将相似度的和直接或者进行正相关运算后作为目标用户和候选用户相对于元路径的用户相似度。

在一个实施例中，属性值估计模块903包括：离散取值范围获取模块903a、属性值强度计算模块903b、加权平均模块903c和估计结果生成模块903d。

离散取值范围获取模块903a，用于获取目标用户和候选推荐对象间的连接的属性值的离散取值范围。

属性值强度计算模块903b，用于对于离散取值范围内的每个取值，分别获取具有与取值满足属性值约束条件的属性值的候选用户和候选推荐对象间的连接，根据获取的连接所对应的候选用户与目标用户间的用户相似度计算取值对应的属性值强度。

加权平均模块903c，用于将离散取值范围内的各个取值分别以相应的属性值强度为权重计算加权平均值。

估计结果生成模块903d，用于根据计算出的加权平均值获得候选推荐对象和目标用户间的连接的估计的属性值。

在一个实施例中，估计结果生成模块903d还用于将各个元路径下计算出的加权平均值分别乘以相应的元路径的路径权重以计算加权平均值，获得候选推荐对象和目标用户间的连接的估计的属性值。

在一个实施例中，估计结果生成模块903d还用于将各个元路径下计算出的加权平均值分别乘以与目标用户和相应的元路径对应的路径权重以计算加权平均值，获得候选推荐对象和目标用户间的连接的估计的属性值。

在一个实施例中，推送推荐信息的装置900还包括：路径权重学习模块905，用于获取候选推荐对象和目标用户间的连接的真实的属性值；将与目标用户和元路径对应的路径权重初始化；根据用户相似度，朝趋近于与候选用户和元路径对应的路径权重的平均值的方向调整初始化的路径权重，使得真实的属性值和估计的属性值的差距满足最小化条件。

在一个实施例中，候选推荐对象为网络资源；属性值为评分值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种推送推荐信息的方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标用户和所述候选用户相对于所述元路径的用户相似度，包括：

根据所述元路径的属性值约束条件将所述元路径拆分为多条原子元路径；

获取所述目标用户和所述候选用户间相对于各条原子元路径的相似度；

根据获取的相对于各条原子元路径的相似度计算所述目标用户和所述候选用户相对于所述元路径的用户相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据获取的相对于各条原子元路径的相似度计算所述目标用户和所述候选用户相对于所述元路径的用户相似度，包括：

计算获取的相对于各条原子元路径的相似度的和；

将所述相似度的和直接或者进行正相关运算后作为所述目标用户和所述候选用户相对于所述元路径的用户相似度。

4.根据权利要求1所述的方法，其特征在于，所述根据所述候选用户和候选推荐对象间的连接的属性值、所述元路径的属性值约束条件以及所述用户相似度，估计所述候选推荐对象和所述目标用户间的连接的属性值，包括：

获取所述目标用户和候选推荐对象间的连接的属性值的离散取值范围；

对于所述离散取值范围内的每个取值，分别获取具有与所述取值满足所述属性值约束条件的属性值的所述候选用户和候选推荐对象间的连接，根据获取的连接所对应的候选用户与所述目标用户间的用户相似度计算所述取值对应的属性值强度；

将所述离散取值范围内的各个取值分别以相应的属性值强度为权重计算加权平均值；

根据计算出的加权平均值获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

5.根据权利要求4所述的方法，其特征在于，所述根据计算出的加权平均值获得所述候选推荐对象和所述目标用户间的连接的估计的属性值，包括：

将各个元路径下计算出的加权平均值分别乘以相应的元路径的路径权重以计算加权平均值，获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

6.根据权利要求4所述的方法，其特征在于，所述根据计算出的加权平均值获得所述候选推荐对象和所述目标用户间的连接的估计的属性值，包括：

将各个元路径下计算出的加权平均值分别乘以与目标用户和相应的元路径对应的路径权重以计算加权平均值，获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述候选推荐对象和所述目标用户间的连接的真实的属性值；

将与目标用户和元路径对应的路径权重初始化；

根据所述用户相似度，朝趋近于与所述候选用户和所述元路径对应的路径权重的平均值的方向调整初始化的路径权重，使得真实的属性值和估计的属性值的差距满足最小化条件。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述候选推荐对象为网络资源；所述属性值为评分值。

9.一种推送推荐信息的装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述用户相似度获取模块包括：

拆分模块，用于根据所述元路径的属性值约束条件将所述元路径拆分为多条原子元路径；

相似度计算模块，用于获取所述目标用户和所述候选用户间相对于各条原子元路径的相似度；

用户相似度合成模块，用于根据获取的相对于各条原子元路径的相似度计算所述目标用户和所述候选用户相对于所述元路径的用户相似度。

11.根据权利要求10所述的装置，其特征在于，所述用户相似度合成模块还用于计算获取的相对于各条原子元路径的相似度的和；将所述相似度的和直接或者进行正相关运算后作为所述目标用户和所述候选用户相对于所述元路径的用户相似度。

12.根据权利要求9所述的装置，其特征在于，所述属性值估计模块包括：

离散取值范围获取模块，用于获取所述目标用户和候选推荐对象间的连接的属性值的离散取值范围；

属性值强度计算模块，用于对于所述离散取值范围内的每个取值，分别获取具有与所述取值满足所述属性值约束条件的属性值的所述候选用户和候选推荐对象间的连接，根据获取的连接所对应的候选用户与所述目标用户间的用户相似度计算所述取值对应的属性值强度；

加权平均模块，用于将所述离散取值范围内的各个取值分别以相应的属性值强度为权重计算加权平均值；

估计结果生成模块，用于根据计算出的加权平均值获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

13.根据权利要求12所述的装置，其特征在于，所述估计结果生成模块还用于将各个元路径下计算出的加权平均值分别乘以相应的元路径的路径权重以计算加权平均值，获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

14.根据权利要求12所述的装置，其特征在于，所述估计结果生成模块还用于将各个元路径下计算出的加权平均值分别乘以与目标用户和相应的元路径对应的路径权重以计算加权平均值，获得所述候选推荐对象和所述目标用户间的连接的估计的属性值。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

路径权重学习模块，用于获取所述候选推荐对象和所述目标用户间的连接的真实的属性值；将与目标用户和元路径对应的路径权重初始化；根据所述用户相似度，朝趋近于与所述候选用户和所述元路径对应的路径权重的平均值的方向调整初始化的路径权重，使得真实的属性值和估计的属性值的差距满足最小化条件。

16.根据权利要求9至15中任意一项所述的装置，其特征在于，所述候选推荐对象为网络资源；所述属性值为评分值。