CN108664661B

CN108664661B - 一种基于频繁主题集偏好的学术论文推荐方法

Info

Publication number: CN108664661B
Application number: CN201810492352.1A
Authority: CN
Inventors: 王红霞; 李冉; 刘浩东
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2021-08-17
Anticipated expiration: 2038-05-22
Also published as: CN108664661A

Abstract

本发明公开了一种基于频繁主题集偏好的学术论文推荐方法，该模型在预测未知评分时，对包含频繁主题集的论文给予一定程度的偏重，频繁出现的主题集合通常代表学术研究的热点，从而凸显包含研究热点的学术论文的价值。该模型首先对语料库进行建模处理，得到论文在主题上的概率分布；从而挖掘出频繁出现的主题集合；最后在协同主题回归模型中融入频繁主题集对推荐结果的影响。本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响，提出基于频繁主题集偏好的协同主题回归模型，力求帮助用户找到更有价值的学术论文；在真实数据集上的实验证明，基于频繁主题集偏好的协同主题回归模型，对比PMF和CTR模型，在召回率和准确率上都有一定的提高。

Description

一种基于频繁主题集偏好的学术论文推荐方法

技术领域

本发明属于数据挖掘技术领域，涉及一种基于频繁主题集偏好推荐方法，特别涉及一种针对学术论文推荐中项目冷启动问题的基于频繁主题集偏好的推荐方法。

技术背景

用户在某个研究方向下做研究时，首先需要阅读相关领域下的核心技术论文，以便了解该方向的主要研究内容和关键技术；其次，阅读新发表的论文对用户也是至关重要的，可以帮助用户紧跟学科的发展，并开阔眼界；同时，用户对包含热点主题的论文的关注度往往更高。

目前我国学术论文推荐算法的相关专利较少，申请号为CN201310537842.6的专利提供了一种基于社区的作者及其学术论文推荐系统和方法，但是没有考虑到推荐中项目冷启动问题；申请号为CN201610205785.5的专利提供了一种结合标签数据的二部图模型学术论文推荐方法，没有考虑频繁出现的主题集合对推荐结果的影响。

发明内容

针对以上不足，本发明提供了一种基于频繁主题集偏好的学术论文推荐方法，在考虑推荐项目中冷启动问题的处理和用户选择学术论文时对研究热点的偏好，其在召回率、准确率和RMSE等指标的显示结果上都有明显效果。

本发明所采用的技术方案是：一种基于频繁主题集偏好的学术论文推荐方法，其特征在于，包括以下步骤：

步骤1：对语料库进行建模处理，得到论文在主题上的概率分布；

步骤2：挖掘出频繁出现的主题集合，记为频繁主题集；

步骤3：在已有的协同主题回归模型CTR中融入用户对频繁主题集的偏好，获得基于频繁主题集偏好的协同主题回归模型，预测未知评分。

本发明的有益效果为：

1、本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响，提出基于频繁主题集偏好的协同主题回归模型，力求帮助用户找到更有价值的学术论文。

2、在真实数据集上的实验证明，基于频繁主题集偏好的协同主题回归模型，对比PMF和CTR模型，在召回率和准确率上都有一定的提高。

附图说明

图1为本发明实施例的协同主题回归模型示意图；

图2为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的召回率对比图；

图3为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的准确率对比图；

图4为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的综合测度对比图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于频繁主题集偏好的学术论文推荐方法，包括以下步骤：

具体是使用已有的潜在狄利克雷(LDA，latent Dirichlet allocation)分布主题模型对论文进行建模，LDA的基本思想是文档被表现为隐含主题的随机混合。对于语料库中的每篇论文，具体实现过程是：

1)从Dirichlet分布α中取样生成文档i的主题分布θ_i；

2)从主题的多项式分布θ_i中取样生成文档i第j个词的主题z_i,j；

3)从Dirichlet分布β中取样生成主题z_i,j对应的词语分布

4)从词语的多项式分布

中采样最终生成词语ω_i,j；

5)重复上述过程，就产生了文档i。

通过Gibbs抽样法可以对参数θ和φ进行推断，参数θ就是论文在主题上的分布信息。

步骤2：挖掘出频繁出现的主题集合，记为频繁主题集；

利用潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵，矩阵中的元素表示某篇论文包含某个主题的概率，并根据概率阈值筛选出论文中概率高于阈值的主题，记为论文-主题集，阈值的大小通过实验的方式确定。然后使用已有的Apriori算法对论文-主题集进行频繁项集挖掘，得到经常共同出现的主题集合，也就是频繁主题集，并获得各频繁主题集合在每篇论文中的分布情况。

步骤3：在现有的协同主题回归模型CTR中融入用户对频繁主题集的偏好，获得基于频繁主题集偏好的协同主题回归模型，预测未知评分。

请见图1，为本实施例的协同主题回归模型示意图，本实施例重新定义协同主题回归模型中评分预测函数，使论文中包含的频繁主题集的情况作为预测评分大小的一个影响因素。

为了提高推荐效果，在协同主题回归模型CTR中融入频繁主题集的全局影响因子向量P，提高推荐效果，其中向量p中的元素代表用户对某个频繁主题集的偏好值；

具体实现包括以下步骤：

步骤4.1：重新定义用户对论文的预测评分；

式中，

表示预测评分，向量T_j＝(0/1,0/1,...,0/1)代表论文j包含频繁主题集的情况；T_j的第s个值取值为1，表示论文j中含有第s个频繁主题集；u_i和v_j分别代表用户i和论文j的特征向量，g(x)＝1/(1+exp(-x))为逻辑函数，将预测评分映射到[0,1]区间；P＝(P₁,P₂,...,P_s,...,P_p)是频繁主题集的影响因子向量，P_s表示频繁主题集s在用户对论文评分时产生的影响值，p是频繁主题集的维度；t_j表示论文j中包含频繁主题集的个数，即向量T_j中1的个数；

步骤4.2：假定向量P和向量u和v一样服从均值为0的高斯分布，则推导损失函数的定义：

式中，R_ij是用户i对论文j的真实评分；I_ij为指示函数，如果用户i对论文j有过操作，则返回1，否则返回0；λ_u、λ_v和λ_p分别为u_i、v_j和P的正则化参数；N表示用户数量，M表示论文数量，θ_j表示论文j的主题分布；

步骤4.3：通过对向量u_i、v_j和P实施随机梯度下降法；

求解使损失函数取最小值的用户、论文潜在主题向量以及频繁主题集的影响因子向量P的值，从而通过

预测未知评分。

本实施例在实验过程中，基于16980篇论文依次采用LDA主题模型(一种语料库生成模型)和Apriori算法(一种挖掘关联规则的频繁项集算法)，挖掘出频繁出现的主题集合。并且，将每篇论文表示为以频繁主题集合为维度的向量。依次得到矩阵θ和矩阵T，作为预测未知评分时的已知参数。

按照80％和20％的比例将用户-论文浏览记录划分为训练集和测试集，进行如下实验：

1)分析频繁主题集的数量、参数λ_p对基于频繁主题集偏好的协同主题回归模型的影响，以确定合理的参数值；

2)对比本实施例的模型和矩阵分解模型PMF、协同主题回归模型，两种经典的推荐算法模型的推荐效果。

在评分预测系统中常采用均方根误差(Root Mean Squared Error，RMSE)作为度量标准，RMSE越小，则推荐准确度就越高。RMSE的求解公式如下，

其中Test是测试集合。

假设向用户推荐预测评分最高的m篇论文，对于特定用户，其推荐的召回率和准确率定义为：

TP是推荐列表中用户喜欢的论文数量，FN是没有推荐给用户但用户喜欢的论文的数量，FP是推荐列表中用户不喜欢的论文的数量。

此外，召回率和准确率会出现矛盾的情况，所以经常采用F-Measure方法去综合考虑两者。F-Measure是召回率和准确率的加权调和平均，特别地，当α＝1时，就是最常见的F1。本实施例采用F1来衡量推荐效果。

本实施例的模型由原始的PMF模型扩展而来，并借鉴CTR的思想，与PMF和CTR模型对比，能够直接体现出本实施例的模型在召回率、准确率和RMSE等基准上的提高。因此在本文的实验中，选取了这两种模型作为实验的比较对象。

通过实验，分别得到了使三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)达到最优效果的参数设置，三种模型的特征空间维度均为200，PMF和CTR中λ_u＝λ_v＝0.01，本实施例的模型中λ_u＝λ_v＝0.1、λ_p＝1。在此基础上，设定推荐列表长度k分别取{200，150，100，50，10}，对比三种模型在召回率、准确率和RMSE上的效果。

图2、图3和图4展现了三种模型在推荐效果上的对比；准确率和召回率从用户对推荐列表中的论文的选择上，反映用户的满意度，其中，准确率和召回率越高，说明用户越满意。图2和图3表明，基于频繁主题集偏好的学术论文推荐的准确率和召回率都高于PMF和CTR模型。综合测度综合了算法模型在准确率和召回率上的表现，图4展示了基于频繁主题集偏好的学术论文推荐的综合测度也优于另外两种模型。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于频繁主题集偏好的学术论文推荐方法，其特征在于，包括以下步骤：

步骤2：挖掘出频繁出现的主题集合，记为频繁主题集；

步骤3：在协同主题回归模型中融入用户对频繁主题集的偏好，获得基于频繁主题集偏好的协同主题回归模型，预测未知评分；

在协同主题回归模型CTR中融入频繁主题集的全局影响因子向量P，其中向量p中的元素代表用户对某个频繁主题集的偏好值；

具体实现包括以下步骤：

步骤4.1：重新定义用户对论文的预测评分；

式中，

步骤4.3：通过对向量u_i、v_j和P实施随机梯度下降法；

预测未知评分。

2.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法，其特征在于，步骤1中所述对语料库进行建模处理，具体是使用已有的潜在狄利克雷分布主题模型对论文进行建模。

3.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法，其特征在于：步骤2中，利用潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵，矩阵中的元素表示某篇论文包含某个主题的概率，并根据概率阈值筛选出论文中概率高于阈值的主题，记为论文-主题集；然后使用已有的Apriori算法对论文-主题集进行频繁项集挖掘，得到经常共同出现的主题集合，也就是频繁主题集，并获得各频繁主题集合在每篇论文中的分布情况。

4.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法，其特征在于：步骤3中，重新定义协同主题回归模型中评分预测函数，使论文中包含的频繁主题集的情况作为预测评分大小的一个影响因素。