CN106802915B - 一种基于用户行为的学术资源推荐方法 - Google Patents

一种基于用户行为的学术资源推荐方法 Download PDF

Info

Publication number
CN106802915B
CN106802915B CN201611128680.0A CN201611128680A CN106802915B CN 106802915 B CN106802915 B CN 106802915B CN 201611128680 A CN201611128680 A CN 201611128680A CN 106802915 B CN106802915 B CN 106802915B
Authority
CN
China
Prior art keywords
academic
user
resource
resources
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611128680.0A
Other languages
English (en)
Other versions
CN106802915A (zh
Inventor
刘柏嵩
尹丽玲
王洋洋
高元
费晨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201611128680.0A priority Critical patent/CN106802915B/zh
Publication of CN106802915A publication Critical patent/CN106802915A/zh
Application granted granted Critical
Publication of CN106802915B publication Critical patent/CN106802915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户行为的学术资源推荐方法,特点是:包括步骤:①对资源库中所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布四个维度建模,得到学术资源模型;②根据筛选规则,得到待推荐的学术资源集合;③获取用户浏览记录,计算用户对浏览过的每条学术资源产生的行为系数;④基于行为系数与学术资源模型构建用户兴趣模型;⑤计算每条待推荐学术资源与用户兴趣模型的相似度;⑥根据相似度,从待推荐学术资源集合中对用户进行Top‑N推荐,优点是:能同时推荐多种类型的学术资源,推荐范围全面;从三个维度对学术资源的质量值进行衡量,为用户推荐感兴趣且高质量的学术资源;从四个维度对学术资源建模更能准确挖掘其内容信息。

Description

一种基于用户行为的学术资源推荐方法
技术领域
本发明涉及个性化学术推荐技术领域,尤其涉及一种基于用户行为的学术资源推荐方法。
背景技术
21世纪是大数据时代,每天都有海量的多类型学术资源实时涌现,这些多类型学术资源主要包括:学术论文、学术会议、学术专利、学术新闻和学术书籍等,这些学术资源对于用户精准、高效地掌握感兴趣领域的科研现状意义重大。但是由于多类型学术资源的特点是异质、异构,且不断增长,利用传统的Google Scholar、Software Academic Search、Web of Science和百度学术等学术搜索引擎查找目标资源既费时费力,又不能满足用户的个性化需求。因此,个性化学术推荐技术的出现很好的解决了这一问题,它根据用户的兴趣偏好,快速主动地为用户推送其感兴趣的学术资源。
近年来,在学术资源推荐领域,科研人员提出了一系列推荐算法,如协同过滤(Collaborative Filtering,CF)、内容过滤(Content-Based Filtering,CBF)及其混合模型。在实际工业界,诸如学术资源等文本推荐服务通常采用CBF+X的混合模型:例如YouTobe推荐使用CBF+ItemCF的方案,豆瓣图书推荐采用CBF+Weight-CF的方案。由于CBF有助于解决新项目的冷启动问题,使CBF成为文本推荐服务必不可少的一部分。
现有技术中,Wang等人主要基于论文的关键词分布(由TF-IDF算法得出)为用户推荐学术论文,综合考虑学术论文之间的文本相似性、作者相似性、亲密度和影响力等因素提出两种算法,为用户推荐有价值的学术论文。Zhao等人基于研究者的背景知识和研究目标之间的差距为其推荐有效的学术论文。上述研究主要专注于学术论文而对其他诸类型的学术资源如学术专利、学术会议、学术新闻和学术书籍等研究较少,更缺少对多种类型的学术资源同时进行个性化推荐的研究,推荐的学术资源类型单一,不够全面。
A Daud等人基于LDA主题模型,提出一种考虑词语内在结构和关系的组主题建模方法,但作者没有考虑学术论文的学科主题分布,而学术论文的学科专业性很强,通常一篇学术论文能够归属到一个或几个学科门类下,因此该算法的推荐结果不够准确。
Pera将用户行为,如引用论文、显示评分加入内容过滤算法,为用户推荐感兴趣的学术论文。Felix等人根据现有的科研社区数据设计了社区推荐系统,意图根据作者之间的社交关系,为用户推荐学术会议。上述研究主要专注于为用户推荐感兴趣的或者与其研究方向相关的学术资源,但是对科研人员而言,不仅注重学术资源是否符合其研究兴趣或方向,同时也注重学术资源的高质性,因此上述研究在推荐高质量的学术资源方面仍存在缺陷。
发明内容
为了解决上述现有技术中存在的不足,本发明提供一种基于用户行为的学术资源推荐方法,该方法能够使用户快速准确地同时获取感兴趣、高质量的多类型学术资源。
本发明解决上述技术问题所采用的技术方案为:一种基于用户行为的学术资源推荐方法,包括以下步骤:
①对资源库中的所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布共四个维度进行建模,得到学术资源模型;
②根据筛选规则,对资源库中的所有学术资源进行筛选,得到待推荐的学术资源集合;
③从用户行为日志中获取用户的浏览记录,计算用户对浏览过的每条学术资源产生的行为系数;
④基于行为系数与学术资源模型构建用户兴趣模型;
⑤计算学术资源模型和用户兴趣模型之间的相似度,得到待推荐学术资源集合中每条学术资源与用户兴趣模型之间的相似度;
⑥根据相似度,从待推荐学术资源集合中对用户进行Top-N推荐。
所述的步骤①中还包括:对资源库中的所有学术资源计算每条学术资源的权威度、社区热度和时新度三个特征值,根据这三个特征值计算并得到每条学术资源的质量值。
所述的资源类型包括:学术论文、学术新闻、学术会议、学术专利和学术书籍。
所述的步骤①中对资源库中的所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布共四个维度进行建模,得到学术资源模型的操作具体包括:
将所述的学术资源模型记为Mr,Mr={Tr,Kr,Ct,Lr},其中,Tr为学科分布向量,由贝叶斯多项式模型训练得到,所述的学科分布为学术资源在75个学科中的概率分布,其中75个学科为根据教育部公布的89个硕士专业整合后得到;
Kr为关键词分布向量,Kr={(kr1r1),(kr2r2),...,(kriri),...,(krN1rN1)},N1为关键词个数,kri(1≤i≤N1)表示单条学术资源第i个关键词,ωri为关键词kri的权重,ωri通过改进后的TF-IDF算法计算得到,公式如下:
Figure GDA0002437994930000031
其中,ωri表示学术资源r中第i个关键词的权重,tf(r,i)表示第i个关键词在学术资源r中出现的频度,Z表示学术资源总数,l表示包含关键词i的学术资源数量;
Ct为资源类型,t的取值为1,2,3,4,5;
Lr为学术资源的LDA主题分布向量,Lr={lr1,lr2,lr3,...,lrq,...,lrN2},lrq表示学术资源r属于第q个学科的概率,其中1≤q≤N2,N2为LDA潜在主题数量,Lr由LDA模型训练得到。
所述的步骤②中的筛选规则包括:只选择当天之内的学术新闻,当天之后召开的学术会议,以及用户未浏览过的学术论文、学术专利和学术书籍。
所述的步骤③中从用户行为日志中获取用户的浏览记录,计算用户对浏览过的每条学术资源产生的行为系数的操作具体包括:
用S表示行为系数,T表示阅读时长阈值,δ表示调节参数,j表示用户浏览过的单条学术资源,
若用户阅读j的时间小于阅读时长阈值T,则认为用户不喜欢或误点该单条学术资源j,令S=0;
当用户阅读j的时间大于或等于T,则继续判断:
若用户做出评分,且评分值大于其之前做出的所有评分的均值Mean,则认为用户喜欢j,将S增加δ;
若用户对j进行了收藏,将S增加δ;
若用户对j进行了分享,将S增加δ。
所述的步骤④中基于行为系数与学术资源模型构建用户兴趣模型的操作具体包括:
将所述的用户兴趣模型记为Mu,Mu={Tu,Ku,Ct,Lu},其中,Tu为用户的学科偏好向量,即
Figure GDA0002437994930000032
其中,sum为用户浏览过的学术资源总数,Sj为用户对j产生的行为系数,反映用户对j的偏好程度,Tjr为j的学科分布向量;
Ku为用户的关键词偏好向量,首先将行为系数S与关键词分布向量Kr相乘计算出用户浏览过的每篇学术资源新的关键词分布,然后选取所有学术资源新的关键词分布的TOP-N3作为用户的关键词偏好向量Ku,N3为用户偏好关键词个数;
Lu为用户的LDA主题偏好向量,即
Figure GDA0002437994930000041
其中,Ljr为j的LDA主题分布向量。
所述的步骤⑤中学术资源模型和用户兴趣模型之间的相似度采用余弦相似度或Jarccard相似度方法计算得到。
所述的步骤⑥中根据相似度,从待推荐学术资源集合中对用户进行Top-N推荐的操作具体包括:
首先根据待推荐学术资源集合中每条学术资源的相似度和质量值,通过加权求和的方法计算得到每条待推荐学术资源的推荐度,然后对每条待推荐学术资源按推荐度从高到低排序,选择前N条学术资源推荐给用户。
所述的阅读时长阈值T=1200毫秒,行为系数S的初始值为1,调节参数δ=5。
与现有技术相比,本发明的一种基于用户行为的学术资源推荐方法的优点在于:
(1)将学术资源的学科分布向量加入学术资源模型,同时从资源类型、学科分布、关键词分布和LDA主题分布四个维度对学术资源建模,能够充分并准确地挖掘学术资源的内容信息,为用户建模和精准推荐奠定坚实的基础;
(2)对学术论文、学术会议、学术专利、学术新闻和学术书籍五大类型的学术资源进行推荐,区别于以往的单一类型学术资源推荐,能够使用户同时获取多类型的学术资源,推荐范围更广、更全面,方便用户全面了解科研现状,节省分门别类获取学术资源的时间和精力;
(3)从权威度、社区热度和时新度共三个特征对学术资源的质量值进行评估,为各类型学术资源的优质推荐提供条件,本发明结合相似度与质量值之后,推荐的资源不仅符合用户的兴趣偏好,并且同时满足用户对学术资源的高质性需求。
附图说明
图1为本发明一种基于用户行为的学术资源推荐方法的流程图;
图2为学术会议和学术新闻在75个学科中的分布情况的部分图;
图3为学术论文和学术专利在75个学科中的分布情况的部分图;
图4为学术书籍在75个学科中的分布情况的部分图;
图5为KU算法、LU算法、TU算法以及本发明ER算法共四种不同的推荐方法的预测准确度;
图6为图5中四种不同的推荐方法的平均预测准确度。
具体实施方式
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
本发明一种基于用户行为的学术资源推荐方法,其总体流程图如图1所示,包括以下步骤:
①对资源库中的所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布共四个维度进行建模,得到学术资源模型。
本实施例中,资源类型包括学术论文、学术新闻、学术会议、学术专利和学术书籍5类,也可以加入学术博客等其他类型的学术资源。
将学术资源模型记为Mr,Mr={Tr,Kr,Ct,Lr},其中,Tr为学科分布向量,由贝叶斯多项式模型训练得到,学科分布为学术资源在75个学科中的概率分布,其中75个学科为根据教育部公布的89个硕士专业整合后得到。
Kr为关键词分布向量,Kr={(kr1r1),(kr2r2),...,(kriri),...,(krN1rN1)},N1为关键词个数,kri(1≤i≤N1)表示单条学术资源第i个关键词,ωri为关键词kri的权重,ωri通过改进后的TF-IDF算法计算得到,公式如下:
Figure GDA0002437994930000051
其中,ωri表示学术资源r中第i个关键词的权重,tf(r,i)表示第i个关键词在学术资源r中出现的频度,Z表示学术资源总数,l表示包含关键词i的学术资源数量。
Ct为资源类型,t的取值可以为1,2,3,4,5。即五类学术资源:学术论文、学术专利、学术新闻、学术会议和学术书籍。
Lr为学术资源的LDA主题分布向量,Lr={lr1,lr2,lr3,...,lrq,...,lrN2},lrq表示学术资源r属于第q个学科的概率,其中1≤q≤N2,N2为LDA潜在主题数量,Lr由LDA模型训练得到。
每条学术资源通常能够归属于一个或多个学科(对教育部公布的89个硕士专业进行整合后的75个专业的子集,如医学、药学等),这是最能区分海量学术资源的重要特征之一。而一个学科通常又可以细分为多个方向,如计算机科学与技术这一学科下包含图像、大数据和文本处理等多个方向,为体现学术资源更为具体的专业方向,本发明采用LDA(Latent Dirichlet Allocation,文档主题生成模型)来推断学术资源的主题分布,加入资源类型这一特征能够使学术资源模型对多类学术资源均适用。
②对资源库中的所有学术资源计算每条学术资源的权威度、社区热度和时新度三个特征值,根据这三个特征值计算并得到每条学术资源的质量值。
学术论文、学术专利、学术新闻、学术会议和学术书籍这五类学术资源的权威度、社区热度和时新度三个特征值分别取决于不同的因素,其具体衡量因素如表1所示。
表1五类学术资源的特征和衡量因素
资源类型 权威度 社区热度 时新度
学术论文 发表刊物级别、引用量 下载量 发表时间
学术专利 申请人所在单位的级别 阅读次数 发表时间
学术新闻 新闻来源网站的级别 阅读次数 发布时间
学术会议 主办单位的级别 阅读次数 开始时间
学术书籍 出版社的级别 豆瓣上的阅读次数 出版时间
本实施例中将以学术论文为例,对其权威度、社区热度、时新度以及质量值的计算方法做详细说明。学术论文的权威度由其发表刊物级别和被引量来衡量,本实施例中将刊物级别分为五个等级,得分依次为1、0.8、0.6、0.4和0.2分。顶尖杂志或会议如《Nature》、《Science》得1分,第二级别的刊物如《ACM Transaction》得0.8分,依次类推,最低级别的刊物得0.2分。
定义Authority为学术论文的权威度,计算公式如下:
Figure GDA0002437994930000061
其中,Level表示学术论文发表刊物级别的量化得分,Cite表示学术论文被引量的量化结果,定义Cite的计算公式如下:
Cite=Cites/maxCite
其中,Cites是学术论文的被引量,maxCite是学术论文来源数据库中最大的被引量。
定义Popularity为学术论文的社区热度,计算公式如下:
Popularity=DLTimes/maxDLTimes
其中,DLTimes表示学术论文的下载量,maxDLTimes是学术论文来源数据库中最大的下载量。
定义Recentness为学术论文的时新度,计算公式如下:
Figure GDA0002437994930000062
其中,year和month分别是学术论文的发表年份和发表月份,minYear是学术论文来源数据库中所有论文的最早发表年份,minMonth是学术论文来源数据库中所有论文的最早发表月份,maxYear是学术论文来源数据库中所有论文的最晚发表年份,maxMonth是学术论文来源数据库中所有论文的最晚发表月份。
定义Quality为学术论文的质量值,计算公式如下:
Figure GDA0002437994930000071
③根据筛选规则,对资源库中的所有学术资源进行筛选,得到待推荐的学术资源集合。
为了向用户推荐其感兴趣的高质量的学术资源,首先需要一个待推荐的学术资源集合,即系统是从这个待推荐的学术资源集合中挑选出符合用户兴趣的高质量的学术资源,然后推荐给用户。本实施例中,从资源库中筛选学术资源的规则如下:只筛选当天之内的学术新闻,只选择当天之后(不包括当天)召开的学术会议,对于其他三类学术资源学术论文、学术专利和学术书籍,则只选择用户未浏览过的资源。
④从用户行为日志中获取用户的浏览记录,计算用户对浏览过的每条学术资源产生的行为系数。
用户行为对于用户兴趣偏好的分析而言十分重要。显式行为能够明确反映用户的兴趣偏好程度,例如评分,评分越高说明用户越喜欢该资源;隐式行为虽不能明确反映用户兴趣偏好,但其蕴含的信息量和信息价值往往比显式反馈更多更高。本实施例中涉及的用户行为包括阅读时长、评分、收藏和分享,其中评分属于显式行为,其他行为属于隐式行为。
本实施例中,步骤④中从用户行为日志中获取用户的浏览记录,计算并得到用户浏览过的学术资源的行为系数的操作具体包括:
用S表示行为系数,T表示阅读时长阈值,δ表示调节参数,j表示用户浏览过的单条学术资源,
若用户阅读j的时间小于阅读时长阈值T,则认为用户不喜欢或误点该单条学术资源j,令S=0;
当用户阅读j的时间大于或等于T,则继续判断:
若用户做出评分,且评分值大于其之前做出的所有评分的均值Mean,则认为用户喜欢j,将S增加δ;
若用户对j进行了收藏,将S增加δ;
若用户对j进行了分享,将S增加δ。
本实施例中,总共考虑上述4种行为,准确地反映了用户的兴趣偏好,为精准地向用户推荐感兴趣的学术资源提供了可靠的保障。此外,现有技术中通常是为除评分之外的其他行为如分享、收藏等行为赋予一个定值,例如分享:4分,收藏:5分,以此代表用户的评分,而本发明将用户产生的行为通过算法量化为行为系数,其算法简单,逻辑更合理,效果更佳。S最终的值主要取决于初始值和调节参数δ,本实施例中将初始值设为1,δ=5,阅读时长阈值T=1200毫秒。
⑤基于行为系数与学术资源模型构建用户兴趣模型。
用户兴趣模型主要基于用户浏览过的学术资源。根据用户的不同浏览行为,结合学术资源模型,可构建用户兴趣模型。
本实施例中,步骤⑤中基于行为系数与学术资源模型构建用户兴趣模型的操作具体包括:
将用户兴趣模型记为Mu,Mu={Tu,Ku,Ct,Lu},其中,Tu为用户的学科偏好向量,是用户一段时间内浏览的某种学术资源的学科分布Tr经过用户行为后形成的,五种学术资源分开计算,公式为:
Figure GDA0002437994930000081
其中,sum为用户浏览过的学术资源总数,Sj为用户对浏览过的单条学术资源j产生的行为系数,该值越大说明用户越喜欢该学术资源,Sj的计算综合考虑了阅读时长、评分、收藏和分享等行为,能够准确反映用户对j的偏好程度,Tjr为j的学科分布向量;
Ku为用户的关键词偏好向量,首先将行为系数S与关键词分布向量Kr相乘计算出用户浏览过的每篇学术资源新的关键词分布,然后选取所有学术资源新的关键词分布的TOP-N3作为用户的关键词偏好向量Ku,N3为用户偏好关键词个数;
Lu为用户的LDA主题偏好向量,由学术资源的LDA主题分布向量Lr计算得到,计算方法同Tu,即
Figure GDA0002437994930000082
其中,Ljr为j的LDA主题分布向量。
⑥计算学术资源模型和用户兴趣模型之间的相似度,得到待推荐学术资源集合中每条学术资源与用户兴趣模型之间的相似度。
本实施例中,步骤⑥中学术资源模型和用户兴趣模型之间的相似度采用余弦相似度或Jarccard相似度方法计算得到。
用户的学科偏好向量Tu与学科分布向量Tr的相似度通过余弦相似度计算,即:
Figure GDA0002437994930000083
用户的LDA主题偏好向量Lu与学术资源的LDA主题分布向量Lr的相似度通过余弦相似度计算,即:
Figure GDA0002437994930000091
用户的关键词偏好向量Ku与关键词分布向量Kr的相似度计算通过Jaccard相似度计算,即:
Figure GDA0002437994930000092
则用户兴趣模型与学术资源模型的相似度为:
Figure GDA0002437994930000093
其中,σ、ρ、τ为权重参数,σ+ρ+τ=1,具体权重分配由实验训练得到。
⑦根据相似度和质量值,通过加权求和的方法计算得到每条待推荐学术资源的推荐度。
具体地,将推荐度表示为Recommendation_degree,某一学术资源的推荐度越大说明该资源越符合用户的兴趣偏好,且资源越优质。推荐度计算公式如下:
Recommendation_degree=λ1Sim(Mu,Mr)+λ2Quality
其中,λ1、λ2为权重参数,λ12=1。
⑧按照待推荐学术资源集合中每条待推荐学术资源的推荐度,从高到低对用户进行TOP-N推荐。
对每条待推荐学术资源按推荐度Recommendation_degree从高到低排序,选择前N条学术资源推荐给用户。
为进一步验证本发明方法的可行性和有效性,对本发明方法进行试验。
为验证本发明所述算法的有效性,理论上需要一个基准库,包括每篇学术资源的学科分布、关键词分布、LDA主题分布、资源类型和质量值,还包括用户对学术资源产生的行为,包括阅读时长、评分、分享和收藏。但是,目前为止不存在这样的基准库。因此,为了获得用户对学术资源产生的行为数据,我们邀请了25位不同专业的学生作为我们的实验对象。
(1)资源库
本试验的资源库除学术书籍资源可由图书馆OPAC提供外,其他的学术论文、学术会议、学术新闻、学术专利4类资源均通过定址网络爬虫或数据接口技术获取。这些学术资源的获取可以通过以下方式,例如,需要定址爬虫1000多个中英文期刊网站,然后逐一进行解析才能获得7002132篇学术论文。各类资源的总量、实验数量、时间跨度和更新情况如表2所示。
表2资源库中各类学术资源的概况
资源类型 总量(中英文) 实验数量(中文) 时间跨度 更新情况
学术论文 700,2132 354052 2013.1-2016.6 每天更新一次
学术会议 4,5660 26670 2016.3.1-2018 每周更新两次
学术新闻 10,9120 12787 2016.3.1-2016.7.24 实时更新
学术专利 60,3681 330265 2013-2015 每天更新一次
学术书籍 800,4309 319236 2000-2015 每天更新两次
该资源库包含完整的学术资源的基本信息,如资源ID、标题、摘要、会议简介、关键字、资源地址、抓取时间、发布时间等48个字段,其中也包括质量值、学科分布、关键词分布、LDA主题分布和资源类型,这5个字段是对学术资源进行处理后插入的。在对学术论文、学术新闻、学术会议、学术专利和学术书籍这五类学术资源进行模型训练时,主要利用了学术论文的标题、摘要和关键字,学术会议的标题、简介和标签,学术新闻的标题、主要内容和标签,学术专利的标题和摘要以及学术书籍的标题。
为了获得用户行为数据,我们使用表2中的实验数据进行实验,每次向用户推荐15条数据,共推荐40次。最终选择用户点击总数较高的前15位用户的1413条数据作为用户行为数据。
如图2-图4所示,可以看到五类学术资源在75个学科中分布很不均匀,不同类型的学术资源集中分布在不同的学科中。例如学术论文主要集中于经济学等学科,学术专利主要集中于动力与电气工程等学科,学术新闻主要集中于医学等学科,而学术书籍主要集中于经济学等学科。由此可以看到,将学术资源的学科分布和资源类型加入学术资源模型,能够充分并准确地挖掘学术资源的学科分布信息,为用户建模和精准推荐奠定坚实的基础。
(2)本算法的实验评估
(2)-1、评估方法
本实施例中,采用预测准确度Precision来衡量实验结果,计算式为:
Figure GDA0002437994930000101
其中,all是用户数量,Precisioni是第i次推荐系统整体的预测准确度,Precisionik是第i次推荐用户k的预测准确度。Precisionik的定义如下:
Figure GDA0002437994930000111
其中,Lik是系第i次推荐中用户k喜欢的资源数量,Rik是系统第i次向用户k推荐的资源数量。此处用户喜欢的资源就是用户点击过的资源,因为实验中要求用户只点击自己感兴趣的资源,且不存在误点击。
实验中,系统每次向每位用户推荐15条数据,共推荐10次。
(2)-1、实验结果与分析
如图5所示,对比了四种推荐算法的预测准确度,横坐标表示推荐次数,纵坐标表示预测准确度Precision。其中,用KU算法表示在资源建模时仅考虑资源类型、学科分布和关键词分布三个维度的学术资源推荐算法;用LU算法表示在资源建模时仅考虑资源类型、学科分布和LDA主题分布三个维度的学术资源推荐算法;用TU算法表示在资源建模时仅考虑资源类型、关键词分布和LDA主题分布三个维度的学术资源推荐算法;用ER表示本发明所述的推荐算法。从图5可知,ER算法的预测准确度Precision最高,其次是TU和KU,最差的是LU。
如图6所示,描绘了上述四种不同的推荐方法的10次推荐的平均预测准确度,横坐标表示推荐方法,纵坐标表示平均预测准确度。从图5、图6可看到本发明所提出的学术资源推荐方法有效提升了系统的预测准确度,能够为用户推荐感兴趣及高质量的学术资源。由此,足以说明本发明一种基于用户行为的学术资源推荐方法是可行且有效的。

Claims (8)

1.一种基于用户行为的学术资源推荐方法,其特征在于,包括以下步骤:
①对资源库中的所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布共四个维度进行建模,得到学术资源模型;
②根据筛选规则,对资源库中的所有学术资源进行筛选,得到待推荐的学术资源集合;
③从用户行为日志中获取用户的浏览记录,计算用户对浏览过的每条学术资源产生的行为系数;
④基于行为系数与学术资源模型构建用户兴趣模型;
⑤计算学术资源模型和用户兴趣模型之间的相似度,得到待推荐学术资源集合中每条学术资源与用户兴趣模型之间的相似度;
⑥根据相似度,从待推荐学术资源集合中对用户进行Top-N推荐;
所述的步骤①中对资源库中的所有学术资源从资源类型、学科分布、关键词分布和LDA主题分布共四个维度进行建模,得到学术资源模型的操作具体包括:
将所述的学术资源模型记为Mr,Mr={Tr,Kr,Ct,Lr},其中,Tr为学科分布向量,由贝叶斯多项式模型训练得到,所述的学科分布为学术资源在75个学科中的概率分布,其中75个学科为根据教育部公布的89个硕士专业整合后得到;
Kr为关键词分布向量,Kr={(kr1r1),(kr2r2),...,(kriri),...,(krN1rN1)},N1为关键词个数,kri表示单条学术资源第i个关键词,其中1≤i≤N1,ωri为关键词kri的权重,ωri通过改进后的TF-IDF算法计算得到,公式如下:
Figure FDA0002437994920000011
其中,ωri表示学术资源r中第i个关键词的权重,tf(r,i)表示第i个关键词在学术资源r中出现的频度,Z表示学术资源总数,l表示包含关键词i的学术资源数量;
Ct为资源类型,t的取值为1,2,3,4,5;
Lr为学术资源的LDA主题分布向量,Lr={lr1,lr2,lr3,...,lrq,...,lrN2},lrq表示学术资源r属于第q个学科的概率,其中1≤q≤N2,N2为LDA潜在主题数量,Lr由LDA模型训练得到;
所述的步骤④中基于行为系数与学术资源模型构建用户兴趣模型的操作具体包括:
将所述的用户兴趣模型记为Mu,Mu={Tu,Ku,Ct,Lu},其中,Tu为用户的学科偏好向量,即
Figure FDA0002437994920000021
其中,sum为用户浏览过的学术资源总数,Sj为用户对j产生的行为系数,反映用户对j的偏好程度,Tjr为j的学科分布向量;
Ku为用户的关键词偏好向量,首先将行为系数S与关键词分布向量Kr相乘计算出用户浏览过的每篇学术资源新的关键词分布,然后选取所有学术资源新的关键词分布的TOP-N3作为用户的关键词偏好向量Ku,N3为用户偏好关键词个数;
Lu为用户的LDA主题偏好向量,即
Figure FDA0002437994920000022
其中,Ljr为j的LDA主题分布向量。
2.根据权利要求1所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的步骤①中还包括:对资源库中的所有学术资源计算每条学术资源的权威度、社区热度和时新度三个特征值,根据这三个特征值计算并得到每条学术资源的质量值。
3.根据权利要求1或2所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的资源类型包括:学术论文、学术新闻、学术会议、学术专利和学术书籍。
4.根据权利要求3所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的步骤②中的筛选规则包括:只选择当天之内的学术新闻,当天之后召开的学术会议,以及用户未浏览过的学术论文、学术专利和学术书籍。
5.根据权利要求4所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的步骤③中从用户行为日志中获取用户的浏览记录,计算用户对浏览过的每条学术资源产生的行为系数的操作具体包括:
用S表示行为系数,T表示阅读时长阈值,δ表示调节参数,j表示用户浏览过的单条学术资源,
若用户阅读j的时间小于阅读时长阈值T,则认为用户不喜欢或误点该单条学术资源j,令S=0;
当用户阅读j的时间大于或等于T,则继续判断:
若用户做出评分,且评分值大于其之前做出的所有评分的均值Mean,则认为用户喜欢j,将S增加δ;
若用户对j进行了收藏,将S增加δ;
若用户对j进行了分享,将S增加δ。
6.根据权利要求5所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的步骤⑤中学术资源模型和用户兴趣模型之间的相似度采用余弦相似度或Jarccard相似度方法计算得到。
7.根据权利要求2所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的步骤⑥中根据相似度,从待推荐学术资源集合中对用户进行Top-N推荐的操作具体包括:
首先根据待推荐学术资源集合中每条学术资源的相似度和质量值,通过加权求和的方法计算得到每条待推荐学术资源的推荐度,然后对每条待推荐学术资源按推荐度从高到低排序,选择前N条学术资源推荐给用户。
8.根据权利要求5所述的一种基于用户行为的学术资源推荐方法,其特征在于,所述的阅读时长阈值T=1200毫秒,行为系数S的初始值为1,调节参数δ=5。
CN201611128680.0A 2016-12-09 2016-12-09 一种基于用户行为的学术资源推荐方法 Active CN106802915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611128680.0A CN106802915B (zh) 2016-12-09 2016-12-09 一种基于用户行为的学术资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611128680.0A CN106802915B (zh) 2016-12-09 2016-12-09 一种基于用户行为的学术资源推荐方法

Publications (2)

Publication Number Publication Date
CN106802915A CN106802915A (zh) 2017-06-06
CN106802915B true CN106802915B (zh) 2020-07-28

Family

ID=58984712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611128680.0A Active CN106802915B (zh) 2016-12-09 2016-12-09 一种基于用户行为的学术资源推荐方法

Country Status (1)

Country Link
CN (1) CN106802915B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632131C2 (ru) 2015-08-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендуемого списка содержимого
RU2629638C2 (ru) 2015-09-28 2017-08-30 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендуемого набора элементов для пользователя
RU2632100C2 (ru) 2015-09-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер создания рекомендованного набора элементов
RU2632144C1 (ru) 2016-05-12 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Компьютерный способ создания интерфейса рекомендации контента
RU2632132C1 (ru) 2016-07-07 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для создания рекомендаций содержимого в системе рекомендаций
RU2636702C1 (ru) 2016-07-07 2017-11-27 Общество С Ограниченной Ответственностью "Яндекс" Способ и устройство для выбора сетевого ресурса в качестве источника содержимого для системы рекомендаций
USD882600S1 (en) 2017-01-13 2020-04-28 Yandex Europe Ag Display screen with graphical user interface
CN108280114B (zh) * 2017-07-28 2022-01-28 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN107451894B (zh) * 2017-08-03 2020-09-29 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN107423430B (zh) * 2017-08-03 2020-03-03 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN107566538A (zh) * 2017-10-30 2018-01-09 江西博瑞彤芸科技有限公司 信息推送方法及系统
CN108415992B (zh) * 2018-02-12 2022-03-04 百度在线网络技术(北京)有限公司 资源推荐方法、装置和计算机设备
CN109145222A (zh) * 2018-09-11 2019-01-04 合肥汇众知识产权管理有限公司 专利交易信息的推送方法及装置
RU2720899C2 (ru) 2018-09-14 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации
RU2714594C1 (ru) 2018-09-14 2020-02-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения параметра релевантность для элементов содержимого
RU2720952C2 (ru) 2018-09-14 2020-05-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания рекомендации цифрового содержимого
RU2725659C2 (ru) 2018-10-08 2020-07-03 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для оценивания данных о взаимодействиях пользователь-элемент
RU2731335C2 (ru) 2018-10-09 2020-09-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для формирования рекомендаций цифрового контента
CN109614462A (zh) * 2018-12-29 2019-04-12 佛山科学技术学院 一种基于大数据的新书推送方法、系统、终端设备及介质
CN109885748A (zh) * 2019-02-22 2019-06-14 新疆大学 基于语意特征的优化推荐方法
CN111949695A (zh) * 2019-05-14 2020-11-17 保定市大为计算机软件开发有限公司 一种专利推荐方法和专利推荐装置
CN110188277B (zh) * 2019-05-31 2021-06-25 苏州百智通信息技术有限公司 一种资源的推荐方法及装置
RU2757406C1 (ru) 2019-09-09 2021-10-15 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обеспечения уровня сервиса при рекламе элемента контента
CN110866181B (zh) * 2019-10-12 2022-04-22 平安国际智慧城市科技股份有限公司 资源推荐的方法、装置及存储介质
CN111008335B (zh) * 2019-12-20 2021-11-23 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及存储介质
CN111061939B (zh) * 2019-12-31 2023-03-24 西安理工大学 基于深度学习的科研学术新闻关键字匹配推荐方法
CN111813918B (zh) * 2020-06-18 2024-06-14 国网上海市电力公司 一种科技资源推荐处理方法及装置
CN113868443A (zh) * 2020-06-30 2021-12-31 北京达佳互联信息技术有限公司 一种多媒体资源推荐方法、装置及存储介质
CN112765374A (zh) * 2020-07-27 2021-05-07 上海斐杰教育科技有限公司 一种用于信息推送的教育资源筛选系统及其方法
CN112163161B (zh) * 2020-10-14 2022-11-29 上海交通大学 高校图书馆的推荐方法、系统、可读存储介质及电子设备
CN112559901B (zh) * 2020-12-11 2022-02-08 百度在线网络技术(北京)有限公司 资源推荐的方法、装置、电子设备、存储介质及计算机程序产品
CN112632397A (zh) * 2021-01-04 2021-04-09 同方知网(北京)技术有限公司 基于多类型学术成果画像及混合推荐策略的个性化推荐方法
CN113158077B (zh) * 2021-04-08 2022-11-08 南京邮电大学 一种基于用户画像的学术资源推荐方法
CN113902526B (zh) * 2021-10-19 2024-06-04 平安科技(深圳)有限公司 基于人工智能的产品推荐方法、装置和计算机设备及介质
CN116089712B (zh) * 2022-12-29 2024-03-29 无锡东方健康科技有限公司 基于数据挖掘与分析的热门会议推荐方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095949A (zh) * 2016-06-14 2016-11-09 东北师范大学 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756879B2 (en) * 2004-07-23 2010-07-13 Jeffrey Parsons System and method for estimating user ratings from user behavior and providing recommendations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095949A (zh) * 2016-06-14 2016-11-09 东北师范大学 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高质量学术资源推荐方法的研究与实现;高洁;《中国优秀硕士学位论文全文数据库信息科技辑》;20150415(第04期);第1-56页 *

Also Published As

Publication number Publication date
CN106802915A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN106802915B (zh) 一种基于用户行为的学术资源推荐方法
Möller et al. Do not blame it on the algorithm: an empirical assessment of multiple recommender systems and their impact on content diversity
Shmueli et al. Care to comment? Recommendations for commenting on news stories
CN106815297B (zh) 一种学术资源推荐服务系统与方法
Cai et al. Personalized search by tag-based user profile and resource profile in collaborative tagging systems
Suchanek et al. Social tags: meaning and suggestions
Urbano et al. Evaluation in music information retrieval
Zhou et al. Userrec: A user recommendation framework in social tagging systems
Khabiri et al. Summarizing user-contributed comments
Vosecky et al. Collaborative personalized twitter search with topic-language models
Liu et al. Question quality analysis and prediction in community question answering services with coupled mutual reinforcement
CN109511015B (zh) 多媒体资源推荐方法、装置、存储介质及设备
Tan et al. To each his own: personalized content selection based on text comprehensibility
Ribeiro et al. On tag recommendation for expertise profiling: A case study in the scientific domain
Voorhees The evolution of cranfield
Valverde-Rebaza et al. Job Recommendation Based on Job Seeker Skills: An Empirical Study.
Shani et al. Mining recommendations from the web
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
Behnert et al. Ranking search results in library information systems—Considering ranking approaches adapted from web search engines
Pera et al. Analyzing book-related features to recommend books for emergent readers
Wang et al. Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs
Zhao et al. Academic social network-based recommendation approach for knowledge sharing
Arai et al. Predicting quality of answer in collaborative Q/A community
Harris An Evaluation of Search Strategies for User-Generated Video Content.
Bogers Recommender systems for social bookmarking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant