CN104077351A

CN104077351A - 基于异构信息网络的内容提供方法及系统

Info

Publication number: CN104077351A
Application number: CN201410222787.6A
Authority: CN
Inventors: 张邦佐; 桂欣; 何涛; 杨晟雨; 孙焕垚; 韩宇茹
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2014-05-26
Filing date: 2014-05-26
Publication date: 2014-10-01
Anticipated expiration: 2034-05-26
Also published as: CN104077351B

Abstract

本发明公开了一种基于异构信息网络的内容提供方法，在用户订阅了推荐服务时，使用最优预测矩阵向用户推荐内容，该最优预测矩阵利用异构信息网络，采用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵的两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵。该方法有效地提高了推荐精度，在现有数据的基础上，经过有限次的计算，可以为用户推荐更符合用户意愿的结果，并部分解决了冷启动问题，改善了推荐结果的可解释性。

Description

基于异构信息网络的内容提供方法及系统

技术领域

本发明涉及一种内容提供方法及系统，特别是基于异构信息网络的内容提供方法及系统。

背景技术

随着科学技术的发展，目前已经进入了信息爆炸的时代，由于海量信息的涌现使得信息的利用率反而降低，从而出现了称之为信息超载的现象。特别是在当前的大数据时代，如何从海量的数据中准确地找到自己所需要的信息，更是一个十分紧迫的问题。推荐系统就是解决这一问题的有效手段。

协同过滤方法是推荐系统中研究得最早，也是最多的领域，并在工业界得到了广泛的应用。其基本思想是如果用户在过去有相同的偏好，那么他们在未来也会有相似的偏好。纯粹的协同过滤方法的输入数据只有用户-项目评分矩阵，因此它只应用了用户对项目的历史评分。协同过滤技术一般分为两类：基于记忆的和基于模型的。其中基于记忆的方法是将原始评分数据保存在内存中，直接生成推荐结果；而基于模型的方法会首先离线处理原始数据，学习相应模型，通常采用各种矩阵分解方法。

无论是基于用户的过滤还是基于项目的过滤其中最近邻的计算都只依赖于用户-项目评分矩阵。由于评分矩阵一般都非常稀疏，因此协同过滤的主要挑战就是要用相对较少的有效评分来得到准确的预测。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于异构信息网络的内容提供方法及系统。

为实现上述目标，本发明采用如下的技术方案：

一种基于异构信息网络的内容提供方法，在用户订阅了推荐服务时，使用最优预测矩阵向用户推荐内容，该最优预测矩阵利用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵任意两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵。

获得最优预测矩阵的步骤，具体包括：

步骤一：生成用户集合和项目集合；

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

其中u_i代表参与推荐过程的活动用户；w_i代表参与推荐过程的活动项目；

步骤二：生成属性集合；

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

其中p_i代表参与推荐过程的用户某一方面的属性；q_i代表参与推荐过程的项目某一方面的属性；k和t分别表示参与推荐过程的用户属性数和项目属性数；

步骤三：生成相似度矩阵；

采用基于元路径的相似度计算方法分别计算用户与项目各个属性的相似度矩阵；

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵；

步骤四：矩阵融合；

通过基于元路径的相似度计算后，可以得到多个用户相似度矩阵U(p_i)，和多个项目相似度矩阵W(q_i)；

通过如下三种方式之一或多个进行矩阵融合：

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

融合方式3：(用户相似度矩阵)×(用户-项目评分矩阵)×(项目相似度矩阵)；

步骤五：协同过滤；

使用矩阵分解算法进行推荐预测；

步骤六：矩阵合并；

针对多个元路径和融合方法，以及多种矩阵分解方法运算后会得到多个结果预测矩阵，将这些预测矩阵合并获得最优预测矩阵。

进一步的，在用户输入查询内容时，从数据库获得初步的查询结果，使用最优预测矩阵对该初步的查询结果进行过滤。

本申请还提供一种基于异构信息网络的内容提供系统，该系统包括：

查询机：用户通过查询机登陆并向用户显示推荐内容；

存储机：存储各种数据；

最优预测矩阵生成器：从存储机获得数据，利用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵任意两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵；

过滤选择器：使用最优预测矩阵向用户推荐内容。

上述最优预测矩阵生成器包括：

集合生成器：用于生成用户集合和项目集合；

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

属性生成器：用于生成属性集合；

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

其中p_i代表在系统中参与推荐过程的用户某一方面的属性；q_i代表在系统中参与推荐过程的项目某一方面的属性；k和t分别表示参与推荐过程的用户属性数和项目属性数；

相似度矩阵生成器：用于生成相似度矩阵；

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵；

信息融合生成器：用于矩阵融合；

通过基于元路径的相似度计算后，对于用户来说可以得到多个用户相似度矩阵U(p_i)，对于项目也可以得到多个项目相似度矩阵W(q_i)；

通过如下三种方式之一或多个进行矩阵融合：

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

协同过滤器：用于协同过滤；

使用的矩阵分解算法进行推荐预测；

合并器：用于结果预测矩阵合并；

合并器的合并方法包括以下三种：

1.平均(Average)：取多个结果的平均值；

2.最高兴(Most Pleasure)：取多个结果的最大值；

3.最不惨(Least Misery)：取多个结果的最小值。

本申请旨在使用丰富的用户属性和项目属性信息，主要考虑充分利用用户和项目属性的潜在信息构建异构信息网络，利用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵进行融合，得到用户与项目之间的更丰富的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果预测矩阵为用户提供更加有效的内容。该方法有效地提高了推荐精度，在现有数据的基础上，经过有限次的计算，可以为用户推荐更符合用户意愿的结果，针对推荐系统中针对新用户与新项目不能很好进行推荐的冷启动问题，由于引入了用户与项目属性可以部分得到解决，同时也可以改善推荐结果的可解释性。

附图说明

图1为本发明第一实施例的方法流程图；

图2为本发明的第二实施例的方法流程图；

图3为构建最优预测矩阵的方法流程图；

图4为本发明的系统结构图；

图5为最优预测矩阵生成器的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

向用户提供内容服务的系统通常具有push和pull两种模式，用户可以分别采用pull模式或push模式登录查询机。在push模式中，当用户登陆查询机时，即可根据用户之前的服务订阅情况和查询历史，及时向用户推送通过推荐系统预测的可能用户最感兴趣的相关内容；pull模式为用户进行查询请求时，结合用户的查询历史，推荐系统向用户推荐更可能相关的内容。本发明可以是具有单独的push模式或pull模式的系统，也可以是具有这两种模式的系统。

首先，介绍本发明的第一实施例的方法流程图。

参照图1，本发明的第一实施例的方法流程图是push模式的基于异构信息网络的内容提供方法，包括：

步骤101：用户登陆。

用户登陆查询机，提供用户身份鉴别，通常是账号和密码或者其它验证方式，也可以采用系统默认用户的方式，以避免用户每次都需要重新登录的麻烦。通过身份鉴别，判断用户是否订阅了推荐服务。其中本领域技术人员可以知道，查询机可以是任意网络浏览器或应用。

步骤102：获得用户身份。

通过用户身份认证，一旦判断用户订阅了推荐服务，则推荐系统即时定位用户信息以及用户与项目交互历史，确定系统中活动用户与活动项目集合，触发推荐过程，计算并产生最优预测矩阵。

步骤103：使用最优预测矩阵向用户推荐内容。

针对用户的个性化信息使用最优预测矩阵向用户推荐服务内容，将服务内容呈现给当前用户，并跟踪用户反馈，将用户交互结果进行保存。

这里需要注意的是，为了提高系统响应的实时性，可以在用户退出系统前进行推荐内容计算，如果用户下次登录时系统中用户与项目变化不大的情况下就可以立即呈现计算结果，从而大大提高了系统的实时性。

参照图2，是本发明的第二实施例的方法流程图。第二实施例是pull模式的基于异构信息网络的内容提供方法，包括：

步骤201：用户查询。

用户通过查询机输入查询关键字或其组合。需要注意的是，为了提供个性化的信息服务，在用户打开查询机的时候通常需要使用用户鉴别过程以确定当前用户，虽然这一过程并不是必需的，当然也可以使用系统默认用户方式避免用户多次登录。

步骤202：获得查询数据结果。

系统通过查询本地或远端数据库获得初步的查询结果，查询结果通常很多，为了实现个性化服务，所以需要根据查询结果触发推荐过程。

步骤203：使用最优预测矩阵过滤查询结果。

推荐系统根据当前用户查询历史对查询结果进行推荐，使用最优预测矩阵对初步的查询结果进行过滤，实现结果自动分类和重新排序。

步骤204：提供给用户过滤后的查询结果。

将过滤后的查询结果通过查询机提供给用户，得到个性化的服务体验，实现针对用户的个性化服务。并跟踪和保存用户对结果的交互信息。

在上述图1和图2中所示的两个实施例中，最优预测矩阵的获得过程为：利用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵任意两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵。详细步骤如图3所示，包括：

步骤301：生成用户集合和项目集合。

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

其中u_i代表参与推荐过程的活动用户。对于系统中存在的但不再使用的用户以及特殊用户通常不参加推荐过程，可以有效提高系统效率。

w_i代表参与推荐过程的活动项目，对于不再使用的过期项目也不参与推荐过程，系统也可以指定某些特殊项目不参与推荐过程。

项目可以是系统提供的各种信息服务，通常可以是商品、文件、活动等。

步骤302：生成属性集合。

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

其中p_i代表在系统中参与推荐过程的用户某一方面的属性。也可能存在一些属性对推荐帮助不大，所以可以不包括对推荐意义不大的属性。同时也可以根据用户当前状态自动生成新的属性或者合并组合几个属性生成新的属性。qi代表在系统中参与推荐过程的项目某一方面的属性，不必是全体属性集合都参与推荐。同时也可以根据项目当前状态自动生成新的属性或者合并组合几个属性生成新的属性。

k和t分别表示参与推荐过程的用户属性数和项目属性数。

步骤303：生成相似度矩阵。

采用基于元路径的相似度计算方法分别计算用户与项目各个属性的相似度矩阵。

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵。

步骤304：矩阵融合。

通过基于元路径的相似度计算后，对于用户来说可以得到多个用户相似度矩阵U(p_i)，对于项目也可以得到多个项目相似度矩阵W(q_i)。

注意到对于有m个用户，n个项目的推荐系统来说,用户相似度矩阵是一个m行m列的方阵，同样项目相似度矩阵是一个n行n列的方阵，同时注意到用户-项目的评分矩阵是一个m行n列的矩阵。因此可以通过在用户-项目评分矩阵左乘用户相似度矩阵或者右乘项目相似度矩阵的方法来实现融合用户与项目属性的目的，因此分别可以通过如下三种方式进行信息融合：

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

融合方式3：(用户相似度矩阵)×(用户-项目评分矩阵)×(项目相似度矩阵)

其中融合方式3的示例如下：

融合方式1和2的示例与融合方式3类似，在此不再赘述。

步骤305：协同过滤。

对获得的矩阵使用在协同过滤推荐系统中通常使用的矩阵分解算法进行推荐预测：

通常将矩阵分解成用户和项目两个特征值基向量。为了缩短过程，可以使用梯度下降法。也可以在分解时使用约束条件，如根据推荐数值的实际意义可以约束所有的低秩矩阵必须是非负数，然后使用乘法更新原则来减小实际值和评估值的欧氏距离或者相对熵。得到结果预测矩阵。

步骤306：矩阵合并。

针对多个元路径和融合方法，以及多种矩阵分解方法运算后会得到多个结果预测矩阵，因此需要进一步合并多个预测结果，得到最终的预测结果。比如选取几种较简单的合并方法：

1.平均(Average)：取多个结果的平均值；

2.最高兴(Most Pleasure)：取多个结果的最大值；

3.最不惨(Least Misery)：取多个结果的最小值。

步骤307：获得最优预测矩阵。

经过上述合并方法后就可以得到最优预测矩阵，从而可以有效地对提供个性化的信息服务。

图4是本发明的系统结构图。

该推荐系统包括如下的组成部分：

查询机：用户通过查询机登陆并使用推荐系统，用户可以在查询机上进行用户身份鉴别，查询机在获得用户身份信息之后，可通过查询存储机内存储的信息，从而判断用户是否订阅了推荐服务。在用户输入查询内容时，查询机可将该查询内容以及用户上下文传送到存储机。

存储机：存储各种数据，例如用户数据、项目数据、用户与项目的交互信息，交互信息中包括用户查询历史、项目使用频次、用户对项目的操作行为等信息，还存储由下述的最优预测矩阵生成器生成的最优预测矩阵。在获得查询机传送的用户身份之后，可查询存储的信息，并将查询结果传送给查询机；在判断用户订阅了推荐服务时，从查询机获得查询内容和用户上下文之后，存储机查询存储的数据内容，并将获得的初步查询结果传送到过滤选择器，并启动最优预测矩阵生成器。如果用户未订阅推荐服务，可以把存储机中查询系统中热门项目列表作为推荐内容直接返回查询机作为推荐结果。

最优预测矩阵生成器：从存储机获得数据，确定参与推荐的用户集合和项目集合，以及用户属性集合和项目属性集合，启动推荐过程，进行数据的推荐与预测，生成最优预测矩阵，其构成如图5所示。

过滤选择器：利用最优预测矩阵生成器生成的最优预测矩阵过滤从存储机接收的初步查询结果，处理并生成过滤后的查询结果，并将过滤后的查询结果传送给查询机，进行结果呈现。

该推荐系统除了实现上述基于pull模式的推荐之外，在基于push模式的推荐过程中，用户登陆查询机，进行用户身份鉴定，查询机将该身份信息传输该存储机；存储机鉴别用户身份，判断用户是否订阅了推荐服务，如果判断用户订阅了推荐服务，则存储机定位用户信息和用户与项目交互历史，启动最优预测矩阵生成器；最优预测矩阵生成器生成最优预测矩阵，并将生成的最优预测矩阵发送给过滤选择器，并转发到查询机进行推荐结果呈现。

进一步的，查询机跟踪用户反馈，将用户与项目交互结果保存在存储机中，为以后的推荐做准备。

图5示出了推荐系统中最优预测矩阵生成器的构成，包括：

集合生成器501：用于生成用户集合和项目集合。

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

其中u_i代表参与推荐过程的活动用户。对于系统中存在的但不再使用的用户以及特殊用户进行不参加推荐过程，可以有效提高系统效率。

w_i代表参与推荐过程的活动项目，对于不同使用的过期项目也不参与推荐过程，系统也可以指定某些特殊项目不参与推荐过程。

属性生成器502：用于生成属性集合。

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

其中p_i代表在系统中参与推荐过程的用户某一方面的属性。也可能存在一些属性对推荐帮助不大，所以可以不包括对推荐意义不大的属性。同时也可以根据用户当前状态自动生成新的属性或者合并组合几个属性生成新的属性。

q_i代表在系统中参与推荐过程的项目某一方面的属性，不必是全体属性集合都参与推荐。同时也可以根据项目当前状态自动生成新的属性或者合并组合几个属性生成新的属性。

相似度矩阵生成器503：用于生成相似度矩阵。

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵。

信息融合生成器504：用于矩阵融合。

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

其中融合方式3的示例如下：

融合方式1和2的示例与融合方式3类似，在此不再赘述。

协同过滤器505：用于协同过滤。

合并器506：用于矩阵合并，获得最优预测矩阵。

针对多个元路径和融合方法，以及多种矩阵分解方法运算后会得到多个结果预测矩阵，因此需要进一步合并多个预测结果，得到最终的预测结果。本领域所公知的融合方式有很多，比如选取几种较简单的合并方法：

1.平均(Average)：取多个结果的平均值；

2.最高兴(Most Pleasure)：取多个结果的最大值；

3.最不惨(Least Misery)：取多个结果的最小值。

需要说明的是，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于异构信息网络的内容提供方法，在用户订阅了推荐服务时，使用最优预测矩阵向用户推荐内容，其特征在于：该最优预测矩阵利用异构信息网络，采用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵的两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵。

2.根据权利要求1所述的一种基于异构信息网络的内容提供方法，其特征在于，通过如下三种方式之一或多个进行矩阵融合：

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

融合方式3：(用户相似度矩阵)×(用户-项目评分矩阵)×(项目相似度矩阵)。

3.根据权利要求1所述的一种基于异构信息网络的内容提供方法，其特征在于，

获得最优预测矩阵的步骤，具体包括：

步骤一：生成用户集合和项目集合；

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

步骤二：生成属性集合；

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

其中p_i代表在系统中参与推荐过程的用户某一方面的属性；q_i代表在系统中参与推荐过程的项目某一方面的属性；

步骤三：生成相似度矩阵；

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵；

步骤四：矩阵融合；

通过基于元路径的相似度计算后，可以得到多个用户相似度矩阵U(p_i)，和多个项目相似度矩阵W(q_i)，将这些矩阵进行融合；

步骤五：协同过滤；

使用矩阵分解算法进行推荐预测；

步骤六：矩阵合并；

4.根据权利要求1所述的一种基于异构信息网络的内容提供方法，其特征在于，在用户输入查询内容时，从数据库获得初步的查询结果，使用最优预测矩阵对该初步的查询结果进行过滤。

5.一种基于异构信息网络的内容提供系统，该系统包括：

查询机：用户通过查询机登陆并向用户显示推荐内容；

存储机：存储各种数据；

最优预测矩阵生成器：从存储机获得数据，利用基于元路径的相似度计算方法分别得出用户和项目的相似度矩阵，利用矩阵相乘原理将用户相似度矩阵、用户-项目评分矩阵、项目相似度矩阵两个或三个进行融合，得到用户与项目之间的内在关系，之后再利用基于协同过滤的矩阵分解预测方法进行预测，最后合并结果，获得最优预测矩阵；

过滤选择器：使用最优预测矩阵向用户推荐内容。

6.根据权利要求5所述的一种基于异构信息网络的内容提供系统，其特征在于，信息融合生成器：通过如下三种方式之一或多个进行矩阵融合：

融合方式1：(用户-项目评分矩阵)×(项目相似度矩阵)

融合方式2：(用户相似度矩阵)×(用户-项目评分矩阵)

7.根据权利要求5所述的一种基于异构信息网络的内容提供系统，其特征在于，

上述最优预测矩阵生成器包括：

集合生成器：用于生成用户集合和项目集合；

用户集合：US＝{u₁,u₂,...,u_m}；

项目集合：WS＝{w₁,w₂,...,w_n}；

属性生成器：用于生成属性集合；

用户属性集合：UA＝{p₁,p₂,...,p_k}；

项目属性集合：WA＝{q₁,q₂,...,q_t}；

相似度矩阵生成器：用于生成相似度矩阵；

用户间关于属性p_i的相似度矩阵：U(p_i)∈R^m*m(0＜i≤k)；

项目间关于属性q_i的相似度矩阵：W(q_i)∈R^n*n(0＜i≤t)；

其中R^i*j代表表示i行j列的方阵；

信息融合生成器：用于矩阵融合；

协同过滤器：用于协同过滤；

使用矩阵分解算法进行推荐预测；

合并器：用于结果预测矩阵合并；