CN105975564B

CN105975564B - 基于相对熵相似度的知识推荐方法

Info

Publication number: CN105975564B
Application number: CN201610286410.6A
Authority: CN
Inventors: 于瑞国; 刘志强; 赵满坤; 王建荣; 喻梅; 蔡智勇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2019-07-02
Anticipated expiration: 2036-04-29
Also published as: CN105975564A

Abstract

本发明公开了一种基于相对熵相似度的知识推荐方法，基于构建的在线学习用户与在线知识资源模型，步骤一：根据在线学习用户在线学习浏览记录，建立在线学习用户与项目关系的评分矩阵，对项目基于内容进行聚类，形成项目聚类集合；步骤二：建立在线学习用户与项目聚类集合之间的典型度关系矩阵；步骤三：训练相对熵相似度计算公式参数α、β，得到其最优值；步骤四：使用相对熵相似度公式计算用户之间的相似度；步骤五：根据相似度计算结果，为用户选取“邻居”，形成邻居用户集合；步骤六、根据邻居用户集合，形成相应在线知识资源推荐列。本发明提高传统推荐算法应用到知识推荐上时相似度计算的效果，从而优化最终推荐效果。

Description

基于相对熵相似度的知识推荐方法

技术领域

本发明属于数据挖掘、人工智能和信息检索领域，涉及推荐算法，尤其是一种基于相对熵相似度的知识推荐算法，用来为用户推荐知识，以方便用户获取所需信息，并提高效率。

背景技术

推荐算法跟推荐技术，核心是预测用户对物品的评分，从而找出其可能感兴趣的部分。目前广泛使用的推荐算法有基于内容的推荐(Content-Based Recommendation)，协同过滤推荐(Collaborative Filtering Recommendation)和混合推荐算法(HybridRecommendation)。

推荐系统有三个重要的模块：用户建模模块，推荐对象建模模块，推荐算法模块。其中推荐算法模块是推荐系统的核心。上述三种主要的推荐方法就是根据推荐算法模块进行区分的。

基于内容的推荐算法主要利用推荐项目内容的相关属性进行建模，从而为用户进行推荐。该类型推荐算法需要维护物品的信息，故人工参与较多，工作量大。另外，基于内容的推荐算法主要适用于能以文本描述的物品。

从不同角度出发，协同过滤推荐算法又可以分为基于用户的协同过滤推荐算法和基于项目协同过滤推荐算法。基于用户的协同过滤推荐算法主要是利用系统中用户的历史浏览记录，为推荐用户找到与推荐用户拥有相似行为的用户，组成相似用户集合，进而为推荐用户推荐相似集合用户中关注过，但是推荐用户未曾关注过的项目。而基于项目的协同过滤思想主要是利用所有用户历史浏览记录，寻找与推荐用户关注过的项目“相似的”，但是推荐用户未曾关注的项目，为用户进行推荐。无论是基于项目的协同过滤推荐算法，还是基于用户的协同过滤算法均存在一定的问题，即传统的相似度计算公式，不能很好的表达两个用户或物品间真实的相似程度，另外，当数据比较稀疏时，协调过滤推荐难以预测用户对其评分。

发明内容

基于上述现有技术和存在的问题，本发明提出了本发明提供了一种基于相对熵相似度的推荐方法，引入相对熵，重新定义用户之间的相似度关系，从相似度计算公式方面进行优化。

本发明提出了一种基于相对熵相似度的知识推荐方法，基于构建的在线学习用户与在线知识资源模型，该方法以下步骤：

步骤101、根据在线学习用户在线学习浏览记录，建立在线学习用户与项目关系的评分矩阵，对项目基于内容进行聚类，形成项目聚类集合；

步骤102、建立在线学习用户与项目聚类集合之间的典型度关系矩阵；

步骤103、训练相对熵相似度计算公式参数α、β，得到其最优值；参数α、β的最优值需满足使得损失函数f取最小值。损失函数f定义如公式(1)所示：

其中，y_i,j表示为0或1，当R_i,j在训练集中出现，即训练集数据中用户i对项目j有评分的时候，将y_i,j表示为1，否则将y_i,j表示为0，是用户i对项目j的评分预测值，采用随机梯度下降算法寻找合适参数，该损失函数f关于参数下降的方向导数由公式(2)、公式(3)定义：

其中，▽α表示损失函数沿α的方向导数；▽β表示损失函数沿β的方向导数，故由随机梯度下降规则由公式(4)、公式(5)给出：

α_t+1＝α_t-η·▽α (4)

β_t+1＝β_t-η·▽β (5)

与公式(5)相似，η为常数，表示梯度下降的步长，α_t为当前推荐对象t的参数α，α_t+1为推荐对象t的下一个推荐对象t+1的参数α，β_t为当前推荐对象t的参数β，β_t+1为推荐对象t的下一个推荐对象t+1的参数β；

步骤104、通过相似度计算公式得到两个用户之间的相似度，基于典型度相对熵相似度的具体计算方法如下式所示：

其中，U_i代表用户i，U_j代表用户j，v_i,t表示用户i与推荐对象t关系评分，在基于典型度推荐算法中，v_i,t表示用户i在聚类t典型度关系评分，α、β为步骤103训练得到的结果；

步骤105、根据相似度计算结果，为用户选取“邻居”，形成邻居用户集合；

步骤106、根据邻居用户集合，形成相应在线知识资源推荐列。

与现有技术相比，上述技术方案的优点在于：

本发明针对知识推荐算法中存在的问题，提高传统推荐算法应用到知识推荐上时相似度计算的效果，从而优化最终推荐效果。

附图说明

图1为整体示意图；

图2为使用不同相似度计算公式对推荐算法结果的影响的实验结果示意图。

具体实施方式

以下结合附图及具体实施方式，进一步详述本发明的技术方案。

本发明的基于相对熵相似度的知识推荐方法，基于构建的在线学习用户与在线知识资源模型，执行如图1所示的处理流程：

步骤101：根据在线学习用户在线学习浏览记录，建立在线学习用户与项目关系的评分矩阵R，对项目基于内容进行聚类，形成项目聚类集合N；

步骤102：建立在线学习用户与项目聚类集合N之间的典型度关系矩阵；

步骤103：训练相对熵相似度计算公式参数α、β，得到其最优值，参数α、β的最优值需满足使得损失函数f取最小值。损失函数f定义如公式(1)所示。

其中，y_i,j表示为0或1，当R_i,j在训练集中出现，即训练集数据中用户i对项目j有评分的时候，将y_i,j表示为1，否则将y_i,j表示为0，是用户i对项目j的评分预测值。本发明中采用随机梯度下降算法寻找合适参数，该损失函数f关于参数下降的方向导数由公式(2)、公式(3)定义：

其中，▽α表示损失函数沿α的方向导数；▽β表示损失函数沿β的方向导数，故由随机梯度下降规则由公式(4)、公式(5)给出。

α_t+1＝α_t-η·▽α (4)

β_t+1＝β_t-η·▽β (5)

与公式(5)相似，η为常数，表示梯度下降的步长，α_t为当前推荐对象t的参数α，α_t+1为推荐对象t的下一个推荐对象t+1的参数α，β_t为当前推荐对象t的参数β，β_t+1为推荐对象t的下一个推荐对象t+1的参数β。

步骤104：通过相似度计算公式得到两个用户之间的相似度。本发明中，用户之间的相似度采用基于典型度相对熵相似度计算公式计算，具体计算方法如公式(6)所示。

其中，U_i代表用户i，U_j代表用户j，v_i,t表示用户i与推荐对象t关系评分。在基于典型度推荐算法中，v_i,t表示用户i在聚类t典型度关系评分，α、β为步骤103训练得到的结果。

步骤105：根据相似度计算结果，为用户选取“邻居”，形成邻居用户集合。

步骤106：根据邻居用户集合，形成相应在线知识资源推荐列，步骤105和步骤106为本专业人员所熟知的步骤，此处不再详述。

使用不同相似度计算公式对推荐算法结果的影响的实验以Movielens为数据集，采用平均绝对误差MAE作为算法性能的评价标准。MAE值越小，代表算法的性能越好。MAE评价标准在推荐算法中，从整体上衡量算法预测用户对物品评分的准确度，是一种公认有效的评价标准。

固定项目的聚类数，选取不同的邻居选择阈值，实验结果如图2所示。由图2可知，在较大范围的阈值区间，使用相对熵相似度(the Relative Entropy Similarity)的知识推荐算法跟使用其他相似度计算方法的推荐算法相比，性能更优。“邻居选择”阈值表示两个用户之间的相似度大于该阈值时，认为他们是“邻居”。MAE和阈值均为本行业一般从业人员所熟知的概念，此处不再详述。当阈值选取过大时，所有算法的性能均下降，这是由于邻居选择条件过严，导致邻居数太小导致的。从图1可知，阈值选在0.3-0.6比较合理，并且在这个范围内，基于相对熵相似度的知识推荐算法性能最优。

Claims

1.一种基于相对熵相似度的知识推荐方法，基于构建的在线学习用户与在线知识资源模型，其特征在于，该方法以下步骤：

步骤(101)、根据在线学习用户在线学习浏览记录，建立在线学习用户与项目关系的评分矩阵；对项目基于内容进行聚类，形成项目聚类集合；

步骤(102)、建立在线学习用户与项目聚类集合之间的典型度关系矩阵；

步骤(103)、训练相对熵相似度计算公式参数α、β，得到其最优值；参数α、β的最优值需满足使得损失函数f取最小值，损失函数f定义如公式(1)所示：

其中，表示损失函数沿α的方向导数；表示损失函数沿β的方向导数，故由随机梯度下降规则由公式(4)、公式(5)给出：

步骤(104)、通过相似度计算公式得到两个用户之间的相似度，基于典型度相对熵相似度的具体计算方法如下式所示：

其中，U_i代表用户i，U_j代表用户j，v_i,t表示用户i与推荐对象t，关系评分，在基于典型度推荐算法中，v_i,t表示用户i在聚类t典型度关系评分，α、β为步骤103训练得到的结果；

步骤(105)、根据相似度计算结果，为用户选取“邻居”，形成邻居用户集合；

步骤(106)、根据邻居用户集合，形成相应在线知识资源推荐列。