CN108664661B - 一种基于频繁主题集偏好的学术论文推荐方法 - Google Patents

一种基于频繁主题集偏好的学术论文推荐方法 Download PDF

Info

Publication number
CN108664661B
CN108664661B CN201810492352.1A CN201810492352A CN108664661B CN 108664661 B CN108664661 B CN 108664661B CN 201810492352 A CN201810492352 A CN 201810492352A CN 108664661 B CN108664661 B CN 108664661B
Authority
CN
China
Prior art keywords
frequent
topic
paper
theme
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810492352.1A
Other languages
English (en)
Other versions
CN108664661A (zh
Inventor
王红霞
李冉
刘浩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201810492352.1A priority Critical patent/CN108664661B/zh
Publication of CN108664661A publication Critical patent/CN108664661A/zh
Application granted granted Critical
Publication of CN108664661B publication Critical patent/CN108664661B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于频繁主题集偏好的学术论文推荐方法,该模型在预测未知评分时,对包含频繁主题集的论文给予一定程度的偏重,频繁出现的主题集合通常代表学术研究的热点,从而凸显包含研究热点的学术论文的价值。该模型首先对语料库进行建模处理,得到论文在主题上的概率分布;从而挖掘出频繁出现的主题集合;最后在协同主题回归模型中融入频繁主题集对推荐结果的影响。本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响,提出基于频繁主题集偏好的协同主题回归模型,力求帮助用户找到更有价值的学术论文;在真实数据集上的实验证明,基于频繁主题集偏好的协同主题回归模型,对比PMF和CTR模型,在召回率和准确率上都有一定的提高。

Description

一种基于频繁主题集偏好的学术论文推荐方法
技术领域
本发明属于数据挖掘技术领域,涉及一种基于频繁主题集偏好推荐方法,特别涉及一种针对学术论文推荐中项目冷启动问题的基于频繁主题集偏好的推荐方法。
技术背景
用户在某个研究方向下做研究时,首先需要阅读相关领域下的核心技术论文,以便了解该方向的主要研究内容和关键技术;其次,阅读新发表的论文对用户也是至关重要的,可以帮助用户紧跟学科的发展,并开阔眼界;同时,用户对包含热点主题的论文的关注度往往更高。
目前我国学术论文推荐算法的相关专利较少,申请号为CN201310537842.6的专利提供了一种基于社区的作者及其学术论文推荐系统和方法,但是没有考虑到推荐中项目冷启动问题;申请号为CN201610205785.5的专利提供了一种结合标签数据的二部图模型学术论文推荐方法,没有考虑频繁出现的主题集合对推荐结果的影响。
发明内容
针对以上不足,本发明提供了一种基于频繁主题集偏好的学术论文推荐方法,在考虑推荐项目中冷启动问题的处理和用户选择学术论文时对研究热点的偏好,其在召回率、准确率和RMSE等指标的显示结果上都有明显效果。
本发明所采用的技术方案是:一种基于频繁主题集偏好的学术论文推荐方法,其特征在于,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
步骤2:挖掘出频繁出现的主题集合,记为频繁主题集;
步骤3:在已有的协同主题回归模型CTR中融入用户对频繁主题集的偏好,获得基于频繁主题集偏好的协同主题回归模型,预测未知评分。
本发明的有益效果为:
1、本发明学术论文推荐算法考虑到频繁主题集在用户选择论文时的影响,提出基于频繁主题集偏好的协同主题回归模型,力求帮助用户找到更有价值的学术论文。
2、在真实数据集上的实验证明,基于频繁主题集偏好的协同主题回归模型,对比PMF和CTR模型,在召回率和准确率上都有一定的提高。
附图说明
图1为本发明实施例的协同主题回归模型示意图;
图2为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的召回率对比图;
图3为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的准确率对比图;
图4为本发明实施例的三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)的综合测度对比图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于频繁主题集偏好的学术论文推荐方法,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
具体是使用已有的潜在狄利克雷(LDA,latent Dirichlet allocation)分布主题模型对论文进行建模,LDA的基本思想是文档被表现为隐含主题的随机混合。对于语料库中的每篇论文,具体实现过程是:
1)从Dirichlet分布α中取样生成文档i的主题分布θi
2)从主题的多项式分布θi中取样生成文档i第j个词的主题zi,j
3)从Dirichlet分布β中取样生成主题zi,j对应的词语分布
Figure BDA0001668220750000021
4)从词语的多项式分布
Figure BDA0001668220750000022
中采样最终生成词语ωi,j
5)重复上述过程,就产生了文档i。
通过Gibbs抽样法可以对参数θ和φ进行推断,参数θ就是论文在主题上的分布信息。
步骤2:挖掘出频繁出现的主题集合,记为频繁主题集;
利用潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵,矩阵中的元素表示某篇论文包含某个主题的概率,并根据概率阈值筛选出论文中概率高于阈值的主题,记为论文-主题集,阈值的大小通过实验的方式确定。然后使用已有的Apriori算法对论文-主题集进行频繁项集挖掘,得到经常共同出现的主题集合,也就是频繁主题集,并获得各频繁主题集合在每篇论文中的分布情况。
步骤3:在现有的协同主题回归模型CTR中融入用户对频繁主题集的偏好,获得基于频繁主题集偏好的协同主题回归模型,预测未知评分。
请见图1,为本实施例的协同主题回归模型示意图,本实施例重新定义协同主题回归模型中评分预测函数,使论文中包含的频繁主题集的情况作为预测评分大小的一个影响因素。
为了提高推荐效果,在协同主题回归模型CTR中融入频繁主题集的全局影响因子向量P,提高推荐效果,其中向量p中的元素代表用户对某个频繁主题集的偏好值;
具体实现包括以下步骤:
步骤4.1:重新定义用户对论文的预测评分;
Figure BDA0001668220750000031
式中,
Figure BDA0001668220750000032
表示预测评分,向量Tj=(0/1,0/1,...,0/1)代表论文j包含频繁主题集的情况;Tj的第s个值取值为1,表示论文j中含有第s个频繁主题集;ui和vj分别代表用户i和论文j的特征向量,g(x)=1/(1+exp(-x))为逻辑函数,将预测评分映射到[0,1]区间;P=(P1,P2,...,Ps,...,Pp)是频繁主题集的影响因子向量,Ps表示频繁主题集s在用户对论文评分时产生的影响值,p是频繁主题集的维度;tj表示论文j中包含频繁主题集的个数,即向量Tj中1的个数;
步骤4.2:假定向量P和向量u和v一样服从均值为0的高斯分布,则推导损失函数的定义:
Figure BDA0001668220750000033
式中,Rij是用户i对论文j的真实评分;Iij为指示函数,如果用户i对论文j有过操作,则返回1,否则返回0;λu、λv和λp分别为ui、vj和P的正则化参数;N表示用户数量,M表示论文数量,θj表示论文j的主题分布;
步骤4.3:通过对向量ui、vj和P实施随机梯度下降法;
Figure BDA0001668220750000041
Figure BDA0001668220750000042
Figure BDA0001668220750000043
求解使损失函数取最小值的用户、论文潜在主题向量以及频繁主题集的影响因子向量P的值,从而通过
Figure BDA0001668220750000044
预测未知评分。
本实施例在实验过程中,基于16980篇论文依次采用LDA主题模型(一种语料库生成模型)和Apriori算法(一种挖掘关联规则的频繁项集算法),挖掘出频繁出现的主题集合。并且,将每篇论文表示为以频繁主题集合为维度的向量。依次得到矩阵θ和矩阵T,作为预测未知评分时的已知参数。
按照80%和20%的比例将用户-论文浏览记录划分为训练集和测试集,进行如下实验:
1)分析频繁主题集的数量、参数λp对基于频繁主题集偏好的协同主题回归模型的影响,以确定合理的参数值;
2)对比本实施例的模型和矩阵分解模型PMF、协同主题回归模型,两种经典的推荐算法模型的推荐效果。
在评分预测系统中常采用均方根误差(Root Mean Squared Error,RMSE)作为度量标准,RMSE越小,则推荐准确度就越高。RMSE的求解公式如下,
Figure BDA0001668220750000045
其中Test是测试集合。
假设向用户推荐预测评分最高的m篇论文,对于特定用户,其推荐的召回率和准确率定义为:
Figure BDA0001668220750000051
TP是推荐列表中用户喜欢的论文数量,FN是没有推荐给用户但用户喜欢的论文的数量,FP是推荐列表中用户不喜欢的论文的数量。
此外,召回率和准确率会出现矛盾的情况,所以经常采用F-Measure方法去综合考虑两者。F-Measure是召回率和准确率的加权调和平均,特别地,当α=1时,就是最常见的F1。本实施例采用F1来衡量推荐效果。
Figure BDA0001668220750000052
本实施例的模型由原始的PMF模型扩展而来,并借鉴CTR的思想,与PMF和CTR模型对比,能够直接体现出本实施例的模型在召回率、准确率和RMSE等基准上的提高。因此在本文的实验中,选取了这两种模型作为实验的比较对象。
通过实验,分别得到了使三种模型(PMF、CTR模型和基于频繁主题集偏好的协同主题回归模型)达到最优效果的参数设置,三种模型的特征空间维度均为200,PMF和CTR中λu=λv=0.01,本实施例的模型中λu=λv=0.1、λp=1。在此基础上,设定推荐列表长度k分别取{200,150,100,50,10},对比三种模型在召回率、准确率和RMSE上的效果。
图2、图3和图4展现了三种模型在推荐效果上的对比;准确率和召回率从用户对推荐列表中的论文的选择上,反映用户的满意度,其中,准确率和召回率越高,说明用户越满意。图2和图3表明,基于频繁主题集偏好的学术论文推荐的准确率和召回率都高于PMF和CTR模型。综合测度综合了算法模型在准确率和召回率上的表现,图4展示了基于频繁主题集偏好的学术论文推荐的综合测度也优于另外两种模型。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (4)

1.一种基于频繁主题集偏好的学术论文推荐方法,其特征在于,包括以下步骤:
步骤1:对语料库进行建模处理,得到论文在主题上的概率分布;
步骤2:挖掘出频繁出现的主题集合,记为频繁主题集;
步骤3:在协同主题回归模型中融入用户对频繁主题集的偏好,获得基于频繁主题集偏好的协同主题回归模型,预测未知评分;
在协同主题回归模型CTR中融入频繁主题集的全局影响因子向量P,其中向量p中的元素代表用户对某个频繁主题集的偏好值;
具体实现包括以下步骤:
步骤4.1:重新定义用户对论文的预测评分;
Figure FDA0003116168170000011
式中,
Figure FDA0003116168170000012
表示预测评分,向量Tj=(0/1,0/1,...,0/1)代表论文j包含频繁主题集的情况;Tj的第s个值取值为1,表示论文j中含有第s个频繁主题集;ui和vj分别代表用户i和论文j的特征向量,g(x)=1/(1+exp(-x))为逻辑函数,将预测评分映射到[0,1]区间;P=(P1,P2,...,Ps,...,Pp)是频繁主题集的影响因子向量,Ps表示频繁主题集s在用户对论文评分时产生的影响值,p是频繁主题集的维度;tj表示论文j中包含频繁主题集的个数,即向量Tj中1的个数;
步骤4.2:假定向量P和向量u和v一样服从均值为0的高斯分布,则推导损失函数的定义:
Figure FDA0003116168170000013
式中,Rij是用户i对论文j的真实评分;Iij为指示函数,如果用户i对论文j有过操作,则返回1,否则返回0;λu、λv和λp分别为ui、vj和P的正则化参数;N表示用户数量,M表示论文数量,θj表示论文j的主题分布;
步骤4.3:通过对向量ui、vj和P实施随机梯度下降法;
Figure FDA0003116168170000021
Figure FDA0003116168170000022
Figure FDA0003116168170000023
求解使损失函数取最小值的用户、论文潜在主题向量以及频繁主题集的影响因子向量P的值,从而通过
Figure FDA0003116168170000024
预测未知评分。
2.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于,步骤1中所述对语料库进行建模处理,具体是使用已有的潜在狄利克雷分布主题模型对论文进行建模。
3.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于:步骤2中,利用潜在狄利克雷分布主题模型挖掘得到论文-主题概率分布矩阵,矩阵中的元素表示某篇论文包含某个主题的概率,并根据概率阈值筛选出论文中概率高于阈值的主题,记为论文-主题集;然后使用已有的Apriori算法对论文-主题集进行频繁项集挖掘,得到经常共同出现的主题集合,也就是频繁主题集,并获得各频繁主题集合在每篇论文中的分布情况。
4.根据权利要求1所述的基于频繁主题集偏好的学术论文推荐方法,其特征在于:步骤3中,重新定义协同主题回归模型中评分预测函数,使论文中包含的频繁主题集的情况作为预测评分大小的一个影响因素。
CN201810492352.1A 2018-05-22 2018-05-22 一种基于频繁主题集偏好的学术论文推荐方法 Expired - Fee Related CN108664661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810492352.1A CN108664661B (zh) 2018-05-22 2018-05-22 一种基于频繁主题集偏好的学术论文推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810492352.1A CN108664661B (zh) 2018-05-22 2018-05-22 一种基于频繁主题集偏好的学术论文推荐方法

Publications (2)

Publication Number Publication Date
CN108664661A CN108664661A (zh) 2018-10-16
CN108664661B true CN108664661B (zh) 2021-08-17

Family

ID=63777286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810492352.1A Expired - Fee Related CN108664661B (zh) 2018-05-22 2018-05-22 一种基于频繁主题集偏好的学术论文推荐方法

Country Status (1)

Country Link
CN (1) CN108664661B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143667B (zh) * 2019-12-05 2023-05-02 重庆邮电大学 一种基于lda主题模型的三部图新闻推荐方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2102258C1 (ru) * 1997-01-28 1998-01-20 Александр Николаевич Вознесенский Способ управления агрегатами транспортного средства в динамическом режиме
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105468371A (zh) * 2015-11-23 2016-04-06 赣南师范学院 一种基于主题聚类的业务流程图合并方法
KR101623170B1 (ko) * 2014-12-15 2016-05-23 주식회사 씽크온웹 논문 투고와 심사시스템에서 전문지식태그 관리 및 심사자 추천 방법 및 그 장치
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN105931122A (zh) * 2016-04-12 2016-09-07 北京邮电大学 一种学术社交网络中魔力研究社区的排序方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160089152A (ko) * 2015-01-19 2016-07-27 주식회사 엔씨소프트 화행 분석을 통한 스티커 추천 방법 및 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2102258C1 (ru) * 1997-01-28 1998-01-20 Александр Николаевич Вознесенский Способ управления агрегатами транспортного средства в динамическом режиме
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
KR101623170B1 (ko) * 2014-12-15 2016-05-23 주식회사 씽크온웹 논문 투고와 심사시스템에서 전문지식태그 관리 및 심사자 추천 방법 및 그 장치
CN105468371A (zh) * 2015-11-23 2016-04-06 赣南师范学院 一种基于主题聚类的业务流程图合并方法
CN105653706A (zh) * 2015-12-31 2016-06-08 北京理工大学 一种基于文献内容知识图谱的多层引文推荐方法
CN105931122A (zh) * 2016-04-12 2016-09-07 北京邮电大学 一种学术社交网络中魔力研究社区的排序方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题效能的学术文献推荐算法;杜永萍等;《北京工业大学学报》;20150128;第2页第2节到第7页第3节 *

Also Published As

Publication number Publication date
CN108664661A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
Celma et al. A new approach to evaluating novel recommendations
US8027977B2 (en) Recommending content using discriminatively trained document similarity
CN106815297B (zh) 一种学术资源推荐服务系统与方法
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP5143879B2 (ja) ランキング指向の協調フィルタリング推薦方法および装置
Chen et al. Fully content-based movie recommender system with feature extraction using neural network
CN110737778A (zh) 基于知识图谱和Transformer的专利推荐方法
CN111061962A (zh) 一种基于用户评分分析的推荐方法
Kang et al. Personalized smart home audio system with automatic music selection based on emotion
Lu et al. A deep Bayesian tensor-based system for video recommendation
Foley et al. A web-based infrastructure for the assisted annotation of heritage collections
US20160188595A1 (en) Semantic Network Establishing System and Establishing Method Thereof
Bashir et al. Opinion-Based Entity Ranking using learning to rank
CN108664661B (zh) 一种基于频繁主题集偏好的学术论文推荐方法
Murtagh The new science of complex systems through ultrametric analysis: Application to search and discovery, to narrative and to thinking
Chaudhuri et al. Modeling user behaviour in research paper recommendation system
Bayatmakou et al. An interactive query-based approach for summarizing scientific documents
Withanawasam Apache Mahout Essentials
Alshamsan et al. Machine learning algorithms for privacy policy classification: A comparative study
Meng Cross-domain information fusion and personalized recommendation in artificial intelligence recommendation system based on mathematical matrix decomposition
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
Lyu et al. Rule-guided graph neural networks for recommender systems
Wang et al. KASR: knowledge-aware sequential recommendation
Quadrana Algorithms for sequence-aware recommender systems
Li et al. Query-document-dependent fusion: A case study of multimodal music retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210817