CN103440329A - 权威作者和高质量论文推荐系统和推荐方法 - Google Patents

权威作者和高质量论文推荐系统和推荐方法 Download PDF

Info

Publication number
CN103440329A
CN103440329A CN2013103962494A CN201310396249A CN103440329A CN 103440329 A CN103440329 A CN 103440329A CN 2013103962494 A CN2013103962494 A CN 2013103962494A CN 201310396249 A CN201310396249 A CN 201310396249A CN 103440329 A CN103440329 A CN 103440329A
Authority
CN
China
Prior art keywords
paper
user
value
theme
author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103962494A
Other languages
English (en)
Other versions
CN103440329B (zh
Inventor
卢美莲
高洁
王萌星
秦臻
刘智超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310396249.4A priority Critical patent/CN103440329B/zh
Publication of CN103440329A publication Critical patent/CN103440329A/zh
Application granted granted Critical
Publication of CN103440329B publication Critical patent/CN103440329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种权威作者和高质量论文的推荐系统和推荐方法,该推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐指定主题的权威作者和高质量的论文,避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并能降低系统计算量,提高系统反应时间。本发明依据学术论文特性,综合考虑作者权威值和论文质量值的各种影响因素,改进了相关算法,提高了推荐结果的准确性,不仅能够为用户推荐高质量论文,还显著缩减计算时间,实时更新效果好;在论文推荐列表中还能够提高推荐结果的多样性,并克服现有系统导致用户视野越来越窄的缺陷。

Description

权威作者和高质量论文推荐系统和推荐方法
技术领域
本发明涉及一种权威作者和高质量论文推荐系统和方法,确切地说,涉及一种针对用户操作行为的权威作者和高质量论文的个性化推荐系统和推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
2003年,D.M.Blei等人提出潜在狄利克雷LDA(Latent Dirichlet Allocation)模型。LDA模型是在概率潜在语义分析PLSA(Probabilistic Latent SemanticAnalysis)基础上,使用一个服从Dirichlet分布的K维隐含随机变量γ表示文本的主题概率分布,并模拟文本的生成过程。后来,有人对该模型中的η参数施加Dirichlet先验,使其服从Dirichlet分布,该参数为δk,其能够使得LDA模型成为一个完整的文本生成模型。这样,LDA主题模型及其扩展技术就被越来愈多地应用于文本挖掘和信息处理等领域。
LDA是一种非监督的机器学习技术,可用于识别大规模文本集或语料库中潜藏的主题信息。它是采用词袋的方法:将每篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。但是,词袋方法没有考虑词与词之间的顺序,这样虽然将问题的复杂性作了简化处理,同时也为改进模型提供了契机。因每篇文本代表一些主题所构成的一个概率分布,而每个主题又代表一些构成单词的另一个概率分布。由于Dirichlet分布随机向量中各分量间的弱相关性(即各分量之和必须为1),使得人们假想的潜在主题之间是几乎不相关的。
参见图1,介绍LDA对于语料库中的每篇文本所定义的生成过程如下:
(1)对于每篇文本,从其主题分布中抽取一个主题;
(2)从抽取的主题所对应的单词分布中抽取一个单词;
(3)重复上述两个步骤,直至遍历文本中的每个单词。
图1展示了LDA生成过程:其中的δk表示主题k中的词概率分布,θj表示第j篇文本的主题概率分布,即第j篇文本的主题特征向量。θj和δk又作为多项式分布的参数,分别用于生成主题和词。K代表主题的总数量,J代表文本的总数量,Bj表示第j篇文本的长度,gj,b和Zj,b分别表示第j篇文本中第b个词及该词所属的主题。γ和η是Dirichlet分布的参数,通常是固定值,且对称分布,因此用标量表示。θj,δk均服从Dirichlet分布。
图1所示的模型表示法被称作“盘子表示法”(plate notation)。图中的阴影圆圈表示可观测变量(observed variable),非阴影圆圈表示潜在变量(latentvariable),箭头表示两变量间的条件依赖性(conditional dependency),方框表示重复抽样,重复抽样的次数在方框的右下角。该模型有两个参数需要推断:文本-主题分布θj和主题-词分布δk。通过对这两个参数的学习,可以获知文本作者感兴趣的主题,以及每篇文本所涵盖的主题比例等。推断方法主要有LDA模型作者提出的变分-EM算法,以及现在常用的Gibbs抽样法。
再介绍另一种用于Web网页结构挖掘中具有权威性并广泛应用的算法:超链引导的主题搜索HITS(Hyperlink Induced Topic Search)算法,该算法在现有的各种对网页进行链接分析、并提取分组的算法中,应用最广泛。它是利用Web的链接结构进行挖掘,也就是通过两个评价权值—权威度(Authority)和枢纽值(Hub)来评估网页质量;其基本思路是利用页面之间的引用链接挖掘隐含的有用信息(如权威性),其特点是计算简单、效率高。其中:
权威值的计算公式为:网页p的权威值
Figure BDA0000376909110000021
枢纽值的计算公式为:网页q的枢纽值
Figure BDA0000376909110000022
其中,q属于所有指向网页p的网页集合,l属于网页p指向的所有网页的集合。
HITS算法认为:对每个网页都应分别考虑其内容权威度和链接权威度,应先评价网页的内容权威度,再评价页面的链接权威度,然后给出该页面的综合评价。内容权威度与网页自身直接提供的内容信息质量相关联,被更多网页所引用的网页,其内容的权威度更高。而链接权威度又与网页提供的超链接页面的质量相关联,引用越多的高质量页面网页,其链接权威度越高。
整体而言,HITS算法效果很好,目前不仅应用于搜索引擎领域,还被自然语言处理和社交分析等多个计算机领域借鉴使用,并取得了很好的应用效果。尽管如此,早先版本的HITS算法仍然存在一些问题,而后续很多基于HITS算法的链接分析方法,也是立足于改进HITS算法存在的这些问题而提出的。
归纳起来,HITS算法主要存在以下多方面不足之处:
(1)计算效率低:因为HITS算法是与查询相关的算法,所以必须在接收到用户查询后才进行实时计算,且HITS算法本身需要进行多轮迭代计算才能获得最终结果,导致其计算效率较低,这是实际应用时必须慎重考虑的问题。
(2)主题漂移问题:如果在扩展网页集合里包含部分与查询主题无关的页面,而且这些页面之间有较多的相互链接指向,那么使用HITS算法很可能会给予这些无关网页很高的排名,导致搜索结果发生主题漂移,这种现象被称为“紧密链接社区现象”(Tightly-Knit Community Effect)。
(3)易被作弊者操纵结果:HITS从机制上很容易被作弊者操纵,比如作弊者可以建立一个网页,其页面内容增加许多指向高质量网页或著名网站的网址,这就成为一个很好的Hub页面。然后,作弊者再将这个网页链接指向作弊网页,于是可以提升作弊网页的Authority得分。
(4)结构不稳定:在原有的扩充网页集合内,如果添加或删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。
为此,2007年Antonietta Grasso等人提出一种推荐权威用户和权威文档的方法。该方法是通过用户相互间的关系,采用HITS算法计算用户的权威值,来推荐权威用户;再通过用户与文档之间的关系,计算文档的权威值,来推荐权威文档。但是,该方法在推荐权威文档时,存在“冷启动”问题,也就是系统用户量较少或者用户操作行为较少时,可能无法推荐或者推荐结果不准确。
后来,2011年Manabu Ohta等人又提出一种基于HITS算法的论文推荐系统。其基本思想是:先从数字图书馆(DL)中搜索与指定术语相关的文章,并提取这些文章中的术语,构建由论文指向该论文出现的术语的二分图,使用HITS算法分析该二分图,按照顺序排队并进行推荐。该方法存在的问题是:计算效率低,系统必须接收到用户的搜索后,才开始实时执行计算操作。
2011年,门瑞在其硕士毕业论文《高质量个性化论文推荐系统研究》中,使用论文所在期刊的影响力因子、论文作者职称、论文的基金资助和论文的引用量等信息对论文的质量进行初始化评价,然后采用PageRank算法进行迭代计算,直至收敛。再对论文进行质量过滤后,根据用户发表过的论文构建用户模型,依据论文内容构建论文模型,然后计算用户与论文的相似度,并依据相似度进行推荐。但是,论文的基金资助信息不能客观反映每篇论文的质量水平,必须将论文的引用量与时间因素相结合,才具有客观评价论文质量的意义。例如,不能因为2002年发表论文A的引用数量大于2011年发表论文B的引用数量,就认为论文A的质量高于论文B的质量。其次,只有在相同研究方向内的评价才对其质量高低有实际意义。再者,该方法仍然存在许多不足之处。例如,由于上述方法是依据用户发表过的论文构建用户模型,因此,该方法不能对未发表过论文的用户构建用户模型,自然也就无法推荐该用户的论文。然而,只要论文质量满足要求,就都参与用户与论文相似度的计算,这样势必增加系统的计算量,从而增加用户的等待时间。上述种种问题都是该方法有待进一步改进的问题。
发明内容
有鉴于此,本发明的目的是提供一种针对用户当前研究方向的权威作者和高质量论文推荐系统和推荐方法,本发明是依据每个主题,利用作者权威值和论文质量值的相互影响关系、作者级别、论文的引用数、发表时间,以及所刊载的期刊/会议的级别等多个因素,更准确地计算作者的权威值和论文的质量值,避免在用户的作者或论文推荐列表中出现权威值或质量值很低的作者与论文,既提高推荐结果的准确性,还能降低系统计算量,提高系统反应时间。
为了达到上述目的,本发明提供了一种权威作者和高质量论文推荐系统,其特征在于:所述推荐系统根据设定的每个主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐权威作者和高质量的论文,以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并降低系统的计算量,提高系统的反应时间;该推荐系统设有:论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间,并根据该期刊或会议名称确定的该期刊或会议的级别,再以该论文的链接地址作为每篇论文的标识加以区分后,将上述论文全部信息都存储于数据库;
预处理模块,负责从数据库中读取每篇论文的摘要和标题,并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理,以及由分词、停用词剔除两个单元依序对论文标题进行处理,得到每篇论文的摘要分词序列和标题分词序列;其中的分词单元依据空格、标点符号对论文标题、摘要进行分词;词性标注单元对分词后的论文摘要标注词性;词性过滤单元依据词性标注单元的标注结果提取名词,停用词剔除单元删除其中对论文没有实际意义的停用词,以提高后续训练和搜索的效率;
主题模型训练模块,负责读取预处理模块中的论文摘要分词序列,将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文都具有其归属每个主题的特征向量,再以每篇论文的标识进行区分;
论文模型构建模块,设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元,所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列,再计算每篇论文的标题分词序列中每个词的tf-idf值,得到每篇论文标题的空间特征向量;摘要的空间特征向量计算单元负责读取与处理模块中的每篇论文的摘要分词序列,再计算每篇论文的摘要分词序列中每个词的tf-idf值,得到每篇论文摘要的空间特征向量;关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词,再计算每篇论文的关键词中每个词的tf-idf值,得到每篇论文关键词的空间特征向量;论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型;所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量;
用户模型构建模块,负责构建个性化的用户模型:根据从数据库中获取设定时间段内每个用户的全部操作行为记录,以及从主题模型训练模块中获取的论文主题特征向量,计算该用户的当前研究主题集合;再从论文模型构建模块中获取该论文的论文模型,计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量;并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型;设有:用户当前研究主题计算、用户标题空间特征向量计算、用户摘要空间特征向量计算、用户关键词空间特征向量计算和用户模型构建五个单元;
权威值与质量值计算模块,负责迭代计算针对每个主题的论文作者权威值和论文质量值:读取主题模型训练模块中的论文的主题特征向量,得到归属某主题的所有论文,再从数据库中读取归属于该主题的所有论文的作者信息,得到该主题的全部作者;并依据作者级别设置该主题的全部作者权威值的初始值,依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值;然后,迭代计算该主题的所有作者权威值和论文质量值,直至结果收敛;最后,依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序;设有:作者权威值初始化、论文质量值初始化、作者权威值与论文质量值计算、作者与论文排序四个单元;
作者与论文推荐模块,用于从用户模型读取用户的当前研究主题集合,对于该集合中的每个主题,读取经由权威值与质量值计算模块计算排序后的该主题的所有论文,再计算每篇论文与该用户的相似度后,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,选择位于前列设定数量的论文,形成该用户在该主题的论文推荐初始列表;同时,读取经由权威值与质量值计算模块计算排序后,位于该主题前列的多个作者,形成该用户在该主题的作者推荐初始列表;再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后,删除其中重复的论文和作者,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表保存于数据库;设有:用户与论文相似度计算、相似度过滤和作者与论文过滤三个单元;
数据库,用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每条操作行为记录包含:用户标识、论文标识、操作行为和起止时间。
为了达到上述目的,本发明还提供了一种采用本发明推荐系统的推荐方法,其特征在于,所述方法包括下列各个操作步骤:
(1)抓取论文:论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息,并根据该期刊或会议名称确定该期刊或会议的级别,再以该论文的链接地址作为其唯一标识加以区分后,将上述所有论文的全部信息存储于数据库;
(2)对论文标题、摘要分别进行预处理:使用斯坦福词性标注器StanfordPOS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Proper noun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词,再过滤并删除没有实际意义的停用词后,还删除论文摘要中剩余词语数少于5的论文;因论文标题言简意赅,故对论文标题分词后,只需过滤并删除没有实际意义的停用词;
(3)对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型对论文摘要的分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且
Figure BDA0000376909110000071
式中,自然数j和k分别是论文和主题的序号,其最大值分别为J和K;Tjk为论文pj归属主题tk的权值;
(4)构建论文模型:依据步骤(2)获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词,分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-idf值,再由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值各自成对组成的多个键值对,分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量;且由上述三个空间特征向量构建该论文的论文模型;
(5)构建用户模型:从数据库中读取用户在设定时段的全部操作行为记录,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,并依据步骤(3)的所有论文的主题特征向量和公式计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值;再依据该用户对主题偏好值大小对这些主题进行递减排序后,选择位于前列的多个主题组成该用户的当前研究主题集合;然后,读取步骤(4)的论文集合Ri中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量,接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理,得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量,最后,由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型;
(6)计算作者权威值和论文质量值:根据步骤(3)的所有论文的主题特征向量,设定每篇论文归属某个主题的权值门限,判断每篇论文是否归属该主题,以便得到归属每个主题的所有论文标识;再根据每个主题的所有论文标识及其作者信息,得到该主题的所有作者,并依据作者级别设置作者权威值的初始值,再依据论文的引用量、发表时间、所登载期刊或会议的级别,设置论文质量值的初始值;然后迭代计算作者权威值和论文质量值,直至结果收敛,并分别依据作者权威值和论文质量值对作者和论文进行递减排序;
(7)读取用户模型中用户ui的当前研究主题集合,并计算该集合中的每个主题中的每篇论文与用户的相似度,删除相似度值小于设定阈值的论文,并删除用户已经有操作行为的论文,然后提取位于前列的多篇论文作为该主题的论文推荐初始列表;读取用户模型中用户的当前研究主题集合,并读取该集合中每个主题的位于前列的多个权威作者,作为每个主题的作者推荐初始列表;
(8)将步骤(7)中各主题的作者推荐初始列表和论文推荐初始列表进行合并,再执行去重处理,得到向用户推荐的权威作者推荐列表和高质量论文推荐列表,并将该两个推荐列表保存于数据库。
本发明的创新优点是:依据学术论文的特性,综合考虑作者权威值和论文质量值的各种影响因素,对HITS算法进行改进,提高推荐结果的准确性。传统HITS算法是设置作者权威值和枢纽值都为1,本发明是根据作者级别设置作者权威值的初始值,再根据论文的引用数量、发表时间和登载论文的期刊或会议的级别设置论文质量值的初始值,再迭代计算作者权威值和论文质量值,并依据权威值大小和质量值大小对归属每个主题的作者和论文分别进行降序排序。这种设置作者权威值和论文质量值的初始值方式,使得作者权威值的初始值和论文质量值的初始值更加合理,能有效减少迭代次数。另外,根据用户的操作行为记录和论文的主题特征向量,得到用户最近时间段内的研究主题,然后依据用户的操作行为记录、这些论文的标题分词序列、摘要分词序列和论文的关键词,分别计算标题、摘要和关键词的三个空间特征向量,并依据这些空间特征向量分别构建用户模型与论文模型,然后计算归属用户研究主题的依据质量值排序后的论文与用户的相似度,过滤删除相似度小于设定阈值的论文和剔除用户已有操作行为的论文。只对归属该研究主题的作者与论文进行推荐计算,并最终形成推荐列表。从而能够显著缩减计算时间,实时更新效果更好。
总之,从上述过程可以看出,本发明能够为用户推荐高质量论文,且论文与用户的相似度只要大于设定阈值即可,也就是该论文推荐列表中有部分质量值较高、但相似度较小的论文,这样提高了推荐列表的多样性,能在某种程度上克服了现有推荐系统导致用户视野越来越窄的问题。
附图说明
图1是本发明背景技术中的LDA生成过程示意图。
图2是本发明权威作者和高质量论文推荐系统结构组成示意图。
图3是本发明权威作者和高质量论文推荐系统的推荐方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明权威作者和高质量论文推荐系统是根据设定的每个主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐权威作者和高质量的论文,以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并降低系统的计算量,提高系统的反应时间。
参见图2,介绍本发明权威作者和高质量论文推荐系统的结构组成:该推荐系统设有:论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库。其中:
论文抓取模块:负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间,并根据该期刊或会议名称确定该期刊或会议的级别,再以该论文的链接地址作为每篇论文的标识加以区分后,将上述论文全部信息都存储于数据库。
预处理模块:负责从数据库中读取每篇论文的摘要和标题,并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理,以及由分词、停用词剔除两个单元依序对论文标题进行处理,得到每篇论文的摘要分词序列和标题分词序列。其中的分词单元依据空格、标点符号对论文标题、摘要进行分词;词性标注单元对分词后的论文摘要标注词性;词性过滤单元依据词性标注单元的标注结果提取名词,停用词剔除单元删除其中对论文没有实际意义的停用词,以提高后续训练和搜索的效率。
主题模型训练模块:负责读取预处理模块中的论文摘要分词序列,将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文都具有其归属每个主题的特征向量,再以每篇论文的标识进行区分。
论文模型构建模块:设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元,其中,标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列,再计算每篇论文的标题分词序列中每个词的tf-idf值,得到每篇论文标题的空间特征向量。摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列,再计算每篇论文的摘要分词序列中每个词的tf-idf值,得到每篇论文摘要的空间特征向量。关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词,再计算每篇论文的关键词中每个词的tf-idf值,得到每篇论文关键词的空间特征向量。论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型;上述三种空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量。
该论文模型构建模块设置每篇论文pj的论文模型为Mpj={PBj,PCj,PDj},即论文模型是由下述三个维度的向量所组成:
PBj为该论文pj的标题空间特征向量,且 P Bj = { ( W j 1 B , ω j 1 B ) , ( W j 2 B , ω j 2 B ) , . . . , ( W j m j B , ω j m j B ) , . . . , ( W j M j B , ω j M j B ) } , 自然数下标mj为论文pj标题分词序列中的词及其ti-idf值的序号,其最大值Mj为向量PBj中词的总个数,
Figure BDA0000376909110000112
为PBj中的第mj个词语,
Figure BDA0000376909110000113
为词语
Figure BDA0000376909110000114
的tf-idf值;
PCj为该论文pj的摘要空间特征向量,且 P Cj = { ( W j 1 C , ω j 1 C ) , ( W j 2 C , ω j 2 C ) , . . . , ( W j n j C , ω j n j C ) , . . . , ( W j N j C , ω j N j C ) } , 自然数下标nj为论文pj的摘要分词序列中的词及其tf-idf值的序号,其最大值Nj为向量PCj中词的总个数,
Figure BDA0000376909110000116
为PCj中的第nj个词语,
Figure BDA0000376909110000117
为词
Figure BDA0000376909110000118
的tf-idf值;
PDj为论文pj的关键词空间特征向量,且 P Dj = { ( W j 1 D , ω j 1 D ) , ( W j 2 D , ω j 2 D ) , . . . , ( W j s j D , ω j s j D ) , . . . , ( W j S j D , ω j S j D ) } , 自然数下标sj为该论文pj关键词中的词及其tf-idf值的序号,其最大值Sj为向量PDj中词的总个数,
Figure BDA00003769091100001110
为PDj中第sj个词语,
Figure BDA00003769091100001111
为词
Figure BDA00003769091100001112
的tf-idf值。
因归属每个主题的作者权威值和论文质量值存在相互关联的影响:作者在某领域内发表的论文质量越高,其权威值也越高;同样地,作者的权威值越高,其论文质量值也越高。故作者权威值的影响因素包括:其论文质量值、作者级别、发表的论文数和该作者在对应论文中的署名位置。影响论文质量值的因素包括:作者权威值、论文的引用数、发表时间和发表论文的期刊或会议级别。
用户模型构建模块:负责构建个性化的用户模型:根据从数据库中获取设定时间段内每个用户的全部操作行为记录,以及从主题模型训练模块中获取的论文主题特征向量,计算该用户的当前研究主题集合;再从论文模型构建模块中获取该论文的论文模型,计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量;并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型。该模块设有五个单元:用户当前研究主题计算单元、用户标题空间特征向量计算单元、用户摘要空间特征向量计算单元、用户关键词空间特征向量计算单元和用户模型构建单元;这五个组成单元的功能介绍如下:
用户当前研究主题计算单元,用于读取存储于数据库中设定时间段内每个用户对所存储的全部论文包括阅读、收藏、分享、下载和评分的全部操作行为记录,再读取这些操作行为记录中的论文标识,得到该用户在该设定时间段内操作过的论文集合Ri,并根据该用户操作行为计算其对Ri中每篇论文的偏好值,然后结合Ri中每篇论文的主题特征向量,计算该用户对其研究主题的偏好值,并依据偏好值对这些主题进行降序排序,选择位于前列的多个主题,形成该用户的当前研究主题集合。
用户标题空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的标题空间特征向量,然后将这些标题空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户标题空间特征向量。
用户摘要空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的摘要空间特征向量,然后将这些摘要空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户摘要空间特征向量。
用户关键词空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的关键词空间特征向量,然后将这些关键词空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户关键词空间特征向量。
用户模型构建单元,负责由该用户的当前研究主题集合、用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量构建该用户的用户模型。
这里需要说明的是:用户标题、用户摘要和用户关键词三个空间特征向量计算单元中的空间特征向量合并处理操作是将两个空间特征向量合并成一个空间特征向量,具体操作内容是:先合并该两个空间特征向量中的词,再合并其中每个词的tf-idf值;也就是,如果在合并前某个词出现于两个空间特征向量中,则该词在合并后的空间特征向量中的tf-idf值是其原来合并前的两个tf-idf值之和;如果合并前某个词只出现在一个空间特征向量,则该词在合并后的空间特征向量中的tf-idf值保持不变。
该用户模型构建模块将所有用户、所有论文和所有主题分别组成为:用户集合U={u1,u2,...,ui,...,uI},论文集合P={p1,p2,...,pj,...,pJ}和主题集合T={t1,t2,...,tk,...,tK},其中,自然数i、j和k分别为用户、论文和主题的序号,其最大值分别为:I、J和K;用户ui的用户模型为Mui={UTi,UBi,UCi,UDi},即用户模型是由下述四个维度的向量所组成:
UTi为用户ui当前研究主题集合、即主题集合T的子集,且
Figure BDA0000376909110000131
自然数下标si为该用户当前研究主题的序号,其最大值Si为用户ui的当前研究主题的总个数;
UBi为用户ui操作过的论文集合Ri中所有论文标题分词序列的用户标题空间特征向量,且 U Bi = { ( W i 1 , ω i 1 ) , ( W i 2 , ω i 2 ) , . . . , ( W i x i , ω i x i ) , . . . , ( W i X i , ω i X i ) } , 其中,Ri为论文集合P的子集,自然数下标xi为论文集合Ri中所有论文的标题分词序列中的词及其对应tf-idf值的序号,其最大值Xi为UBi中词的总个数,
Figure BDA0000376909110000133
为UBi中的第xi个词,
Figure BDA0000376909110000134
为词
Figure BDA0000376909110000135
的tf-idf值;
UCi为用户ui操作过的论文集合Ri中所有论文摘要分词序列的用户摘要空间特征向量,且 U Ci = { ( W i 1 ′ , ω i 1 ′ ) , ( W i 2 ′ , ω i 2 ′ ) , . . . , ( W i y i ′ , ω i y i ′ ) , . . . , ( W i Y i ′ , ω i Y i ′ ) } , 自然数下标yi为论文集合Ri中所有论文的摘要分词序列中的词及其对应tf-idf值的序号,其最大值Yi为UCi中词的总个数,
Figure BDA0000376909110000137
为UCi中的第yi个词语,
Figure BDA0000376909110000138
为词
Figure BDA0000376909110000139
的tf-idf值;
UDi为用户ui操作过的论文集合Ri中所有论文关键词的用户关键词空间向量,且 U Di = { ( W i 1 ′ ′ , ω i 1 ′ ′ ) , ( W i 2 ′ ′ , ω i 2 ′ ′ ) , . . . , ( W i z i ′ ′ , ω i z i ′ ′ ) , . . . , ( W i Z i ′ ′ , ω i Z i ′ ′ ) } , 自然数下标zi为论文集合Ri中所有论文的关键词中的词及其对应tf-idf值的序号,其最大值Zi为UDi中的词语总个数,
Figure BDA00003769091100001311
为UDi中第zi个词语,
Figure BDA00003769091100001312
为词的tf-idf值。
权威值与质量值计算模块:负责迭代计算针对每个主题的论文作者权威值和论文质量值:读取主题模型训练模块中的论文的主题特征向量,得到归属某主题的所有论文,再从数据库中读取归属于该主题的所有论文的作者信息,得到该主题的全部作者;并依据作者级别设置该主题的全部作者权威值的初始值,依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值;然后,迭代计算该主题的所有作者权威值和论文质量值,直至结果收敛;最后,依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序。该模块设有:作者权威值初始化单元、论文质量值初始化单元、作者权威值与论文质量值计算单元和作者与论文排序单元共四个单元;这四个单元的功能说明如下:
论文质量值初始单元,用于读取主题模型训练模块中的论文的主题特征向量,并判断每个主题特征向量中归属于某个主题的权值是否大于设定阈值;若是,则认为该论文属于该主题;否则,认为该论文不属于该主题,从而得到归属该主题的所有论文;还用于从数据库中读取该主题中所有论文的引用数、发表时间及其刊载的期刊或会议级别,依据公式
Figure BDA0000376909110000141
设置归属某一主题的全部论文的初始质量值。
作者权威值初始化单元,用于从数据库中读取归属于某主题的所有论文的作者信息,得到该主题的全部作者,再依据作者级别设置该主题的全部作者的初始权威值。
作者权威值与论文质量值计算单元,负责依据论文质量值的计算公式
Figure BDA0000376909110000142
和作者权威值的计算公式:分别迭代计算该主题的所有作者的权威值和论文的质量值,直至结果收敛:即两次迭代计算结果之差的绝对值小于设定数值后,停止迭代运算。
作者与论文排序单元,用于依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序。
在权威值与质量值计算模块中,归属主题tk的所有作者集合R={r1,r2,...,re,...rE}中(最大值为E的自然数下标e为作者序号),涉及下述两个计算公式:
作者re的权威值ae的计算公式:和归属主题tk的论文pj的质量值qj的计算公式:
Figure BDA0000376909110000145
式中,α和β分别为作者权威值和论文质量值的权重系数,V(e)为作者re发表的论文集合,ωej为作者在论文pj中的权重,qj为论文pj的质量值,Ie为该作者级别;
Figure BDA0000376909110000146
为论文质量值初始化的计算公式,V(j)为论文pj中所有作者集合,ωej为作者re在该论文中的权重,ae为作者re的权威值,Lj为该论文所登载期刊或会议的级别,Hj为该论文的引用量,
Figure BDA0000376909110000151
为时间衰减因子,t为系统当前时间,Tj为该论文的发表时间。例如,一篇论文有3个作者时,第一作者权重ω1=3/(1+2+3)=0.5,第二作者权重ω2=2/(1+2+3)=1/3,第三作者权重ω3=1/(1+2+3)=1/6。作者权威值的初始值为I,论文质量值的初始值为f(C,T,L)。
作者与论文推荐模块:用于从用户模型读取用户的当前研究主题集合,对于该集合中的每个主题,读取经由权威值与质量值计算模块计算排序后的该主题的所有论文,再计算每篇论文与该用户的相似度后,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,选择位于前列设定数量的论文,形成该用户在该主题的论文推荐初始列表;同时,读取经由权威值与质量值计算模块计算排序后,位于该主题前列的多个作者,形成该用户在该主题的作者推荐初始列表;再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后,删除其中重复的论文和作者,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表保存于数据库,该模块设有:用户与论文相似度计算单元、相似度过滤单元和作者与论文过滤单元,这三个单元的组成部件功能如下:
用户与论文相似度计算单元,用于读取用户模型构建模块中的用户模型,然后对于用户模型中当前研究方向集合的每个主题,读取经权威值与质量值计算模块排序后该主题的所有论文,计算每篇论文与该用户的相似度。
相似度过滤单元,用于依据用户与论文相似度计算单元计算的相似度,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,接着选择位于前列设定数量的论文,形成用户在该主题的初始论文推荐初始列表;同时,读取经权威值与质量值计算模块计算排序后,该主题中位于前列按权威值递减排序的多个论文作者,形成用户在该主题的作者推荐初始列表。
作者与论文过滤单元,用于将该用户的当前研究集合中所有主题的初始论文推荐初始列表和初始作者推荐初始列表分别进行合并后,并删除该合并后两个论文推荐初始列表中的重复作者和论文,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表结果保存于数据库中。
数据库:用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每条操作行为记录包含:用户标识、论文标识、操作行为和起止时间。
参照图3,介绍本发明权威作者和高质量论文推荐系统的推荐方法,该方法包括下列各个操作步骤:
步骤1,抓取论文:论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息,并根据该期刊或会议名称确定该期刊或会议的级别,再使用该论文的链接地址作为其唯一标识加以区分后,将上述所有论文的全部信息存储于数据库。
步骤2,对论文标题、摘要分别进行预处理:使用斯坦福词性标注器Stanford POS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的各种名词,再过滤并删除没有实际意义的停用词后,还删除论文摘要中剩余词语数少于5的论文;因论文标题言简意赅,故对论文标题分词后,只需过滤并删除没有实际意义的停用词。
步骤3,对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型对论文摘要的分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且
Figure BDA0000376909110000161
式中,自然数j和k分别是论文和主题的序号,其最大值分别为J和K;Tjk为论文pj归属主题tk的权值。
步骤4,构建论文模型:依据步骤2获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词,分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-idf值,再由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值各自成对组成的多个键值对,分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量;且由上述三个空间特征向量构建该论文的论文模型。
步骤5,构建用户模型:从数据库中读取用户在设定时段的全部操作行为记录,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,并依据步骤3的所有论文的主题特征向量和公式
Figure BDA0000376909110000171
计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值;再依据该用户对主题偏好值大小对这些主题进行递减排序后,选择位于前列的多个主题组成该用户的当前研究主题集合;然后,读取步骤4的论文集合Ri中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量,接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理,得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量,最后,由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型。该步骤包括下列操作内容:
(51)从数据库中读取用户在设定时段的全部操作行为,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,偏好值的计算公式为:
Figure BDA0000376909110000172
式中,为时间衰减系数,表示随着时间推移,用户对该论文的偏好值会降低;μ为衰减系数,时间因子(t-timeij)中的t为当前时间,timeij为用户ui对该论文pj的操作时刻;fij为用户ui在timeij时刻对该论文pj的评分、即此时用户ui对论文pj的偏好值。fij的计算方法有下述两种:
(a)若用户ui对该论文pj有评分时,fij的数值是用户ui对论文pj的评分值。
(b)若用户ui对该论文pj没有评分时,则根据用户的不同操作行为或浏览该论文pj的时长计算fij的数值:
Figure BDA0000376909110000174
其中,t’ij为用户ui浏览论文pj的时长,α和β分别为用户ui浏览论文pj的时长下限值和上限值。
(52)依据步骤(3)得到的所有论文的主题特征向量,依据公式
Figure BDA0000376909110000175
计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值。
(53)依据该用户对主题偏好值大小对这些主题进行递减排序后,选择位于前列的多个主题组成该用户的当前研究主题集合。
(54)从步骤4中读取论文集合Ri中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量,再分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行空间特征向量合并,得到用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量,上述三个空间特征向量与用户的当前研究主题集合构成了用户模型。
步骤6,计算作者权威值和论文质量值:根据步骤3的所有论文的主题特征向量,设定每篇论文归属某个主题的权值门限,判断每篇论文是否归属该主题,以便得到归属每个主题的所有论文标识;再根据每个主题的所有论文标识及其作者信息,得到该主题的所有作者,并依据作者级别设置作者权威值的初始值,再依据论文的引用量、发表时间、所登载期刊或会议的级别,设置论文质量值的初始值;然后迭代计算作者权威值和论文质量值,直至结果收敛,并分别依据作者权威值和论文质量值对作者和论文进行递减排序。该步骤6包括下列操作内容:
(61)根据所有论文的论文主题特征向量,设定每篇论文归属某个主题的门限值,再判断各个主题的每篇论文是否归属该主题,即其权值是否大于该门限值,以便得到归属每个主题的所有论文标识。
(62)读取数据库中存储的每篇论文pj的全部作者信息,得到归属该主题的所有作者标识。
(63)读取归属该主题的每位作者级别Ie,并将该Ie作为该作者权威值的初始值。
(64)读取发表每篇论文pj的期刊或会议的名称,并使用影响因子表示该期刊或会议的级别,再读取论文的引用数与发表时间,设置下述公式
Figure BDA0000376909110000181
的计算结果为论文pj的质量值的初始值。
(65)依据下述两个公式分别迭代计算论文质量值: q j = β Σ e ∈ V ( j ) ( ω ej a e ) + ( 1 - β ) f ( H j , T j , L j ) 和作者权威值: a e = α Σ j ∈ V ( e ) ( ω ej q j ) + ( 1 - α ) I e , 直至结果收敛:也即两次迭代计算结果之差的绝对值小于设定数值,停止迭代运算;并依据权威值和质量值的高低分别对作者和论文进行降序排序。
步骤7,读取用户模型中用户ui的当前研究主题集合,并计算该集合中的每个主题中的每篇论文与用户的相似度,删除相似度值小于设定阈值的论文,并删除用户已经有操作行为的论文,然后提取位于前列的多篇论文作为该主题的论文推荐初始列表;读取用户模型中用户的当前研究主题集合,并读取该集合中每个主题的位于前列的多个权威作者,作为每个主题的作者推荐初始列表。该步骤包括下列操作内容:
(71)计算该主题递减排序后的每篇论文与用户之间的相似性:采用余弦相似度分别计算每篇论文与用户模型标题、摘要和关键词的三个空间特征向量的相似性,再将该三个相似性以设定权重分别计算得到该论文与用户的相似性;
(72)删除相似性值小于设定阈值的论文,再删除用户已经有操作行为的论文后,提取位于前列的多篇论文作为用户ui在该主题的候选论文推荐列表;
(73)选取位于最前列的多位权威作者作为用户ui在该主题的候选作者推荐列表。
步骤8,将步骤7中各主题的作者推荐初始列表和论文推荐初始列表进行合并,再执行去重处理,得到向用户推荐的权威作者推荐列表和高质量论文推荐列表,并将该两个推荐列表保存于数据库。

Claims (12)

1.一种权威作者和高质量论文的推荐系统,其特征在于:所述推荐系统根据每个设定主题,利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素,计算作者权威值及论文质量值,并据此推荐权威作者和高质量的论文,以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文,并降低系统的计算量,提高系统的反应时间;该推荐系统设有:论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间,并根据该期刊或会议名称确定的该期刊或会议的级别,再以该论文的链接地址作为每篇论文的标识加以区分后,将上述论文全部信息都存储于数据库;
预处理模块,负责从数据库中读取每篇论文的摘要和标题,并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理,以及由分词、停用词剔除两个单元依序对论文标题进行处理,得到每篇论文的摘要分词序列和标题分词序列;其中的分词单元依据空格、标点符号对论文标题、摘要进行分词;词性标注单元对分词后的论文摘要标注词性;词性过滤单元依据词性标注单元的标注结果提取名词,停用词剔除单元删除其中对论文没有实际意义的停用词,以提高后续训练和搜索的效率;
主题模型训练模块,负责读取预处理模块中的论文摘要分词序列,将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文都具有其归属每个主题的特征向量,再以每篇论文的标识进行区分;
论文模型构建模块,设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元,所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列,再计算每篇论文的标题分词序列中每个词的tf-idf值,得到每篇论文标题的空间特征向量;摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列,再计算每篇论文的摘要分词序列中每个词的tf-idf值,得到每篇论文摘要的空间特征向量;关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词,再计算每篇论文的关键词中每个词的tf-idf值,得到每篇论文关键词的空间特征向量;论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型;所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量;
用户模型构建模块,负责构建个性化的用户模型:根据从数据库中获取设定时间段内每个用户的全部操作行为记录,以及从主题模型训练模块中获取的论文主题特征向量,计算该用户的当前研究主题集合;再从论文模型构建模块中获取该论文的论文模型,计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量;并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型;设有:用户当前研究主题计算、用户标题空间特征向量计算、用户摘要空间特征向量计算、用户关键词空间特征向量计算和用户模型构建五个单元;
权威值与质量值计算模块,负责迭代计算针对每个主题的论文作者权威值和论文质量值:读取主题模型训练模块中的论文的主题特征向量,得到归属某主题的所有论文,再从数据库中读取归属于该主题的所有论文的作者信息,得到该主题的全部作者;并依据作者级别设置该主题的全部作者权威值的初始值,依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值;然后,迭代计算该主题的所有作者权威值和论文质量值,直至结果收敛;最后,依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序;设有:作者权威值初始化、论文质量值初始化、作者权威值与论文质量值计算、作者与论文排序四个单元;
作者与论文推荐模块,用于从用户模型读取用户的当前研究主题集合,对于该集合中的每个主题,读取经由权威值与质量值计算模块计算排序后的该主题的所有论文,再计算每篇论文与该用户的相似度后,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,选择位于前列设定数量的论文,形成该用户在该主题的论文推荐初始列表;同时,读取经由权威值与质量值计算模块计算排序后,位于该主题前列的多个作者,形成该用户在该主题的作者推荐初始列表;再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后,删除其中重复的论文和作者,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表保存于数据库;设有:用户与论文相似度计算、相似度过滤和作者与论文过滤三个单元;
数据库,用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每条操作行为记录包含:用户标识、论文标识、操作行为和起止时间。
2.根据权利要求1所述的推荐系统,其特征在于:所述用户模型构建模块将所有用户、所有论文和所有主题分别组成为:用户集合U={u1,u2,...,ui,...,uI},论文集合P={p1,p2,...,pj,...,pJ}和主题集合T={t1,t2,...,tk,...,tK},其中,自然数i、j和k分别为用户、论文和主题的序号,其最大值分别为:I、J和K;用户ui的用户模型为Mui={UTi,UBi,UCi,UDi},即用户模型是由下述四个维度的向量所组成:
UTi为用户ui当前研究主题集合、即主题集合T的子集,且自然数下标si为该用户当前研究主题的序号,其最大值Si为用户ui的当前研究主题的总个数;
UBi为用户ui操作过的论文集合Ri中所有论文标题分词序列的用户标题空间特征向量,且 U Bi = { ( W i 1 , ω i 1 ) , ( W i 2 , ω i 2 ) , . . . , ( W i x i , ω i x i ) , . . . , ( W i X i , ω i X i ) } , 其中,Ri为论文集合P的子集,自然数下标xi为论文集合Ri中所有论文的标题分词序列中的词及其对应tf-idf值的序号,其最大值Xi为UBi中词的总个数,
Figure FDA0000376909100000033
为UBi中的第xi个词,
Figure FDA0000376909100000034
为词
Figure FDA0000376909100000035
的tf-idf值;
UCi为用户ui操作过的论文集合Ri中所有论文摘要分词序列的用户摘要空间特征向量,且 U Ci = { ( W i 1 ′ , ω i 1 ′ ) , ( W i 2 ′ , ω i 2 ′ ) , . . . , ( W i y i ′ , ω i y i ′ ) , . . . , ( W i Y i ′ , ω i Y i ′ ) } , 自然数下标yi为论文集合Ri中所有论文的摘要分词序列中的词及其对应tf-idf值的序号,其最大值Yi为UCi中词的总个数,为UCi中的第yi个词语,
Figure FDA0000376909100000038
为词
Figure FDA0000376909100000039
的tf-idf值;
UDi为用户ui操作过的论文集合Ri中所有论文关键词的用户关键词空间向量,且 U Di = { ( W i 1 ′ ′ , ω i 1 ′ ′ ) , ( W i 2 ′ ′ , ω i 2 ′ ′ ) , . . . , ( W i z i ′ ′ , ω i z i ′ ′ ) , . . . , ( W i Z i ′ ′ , ω i Z i ′ ′ ) } , 自然数下标zi为论文集合Ri中所有论文的关键词中的词及其对应tf-idf值的序号,其最大值Zi为UDi中的词语总个数,为UDi中第zi个词语,
Figure FDA0000376909100000042
为词
Figure FDA0000376909100000043
的tf-idf值。
3.根据权利要求1所述的推荐系统,其特征在于:所述用户模型构建模块中的各个组成部件的功能如下:
用户当前研究主题计算单元,用于读取存储于数据库中设定时间段内每个用户对所存储的全部论文包括阅读、收藏、分享、下载和评分的全部操作行为记录,再读取这些操作行为记录中的论文标识,得到该用户在该设定时间段内操作过的论文集合Ri,并根据该用户操作行为计算其对Ri中每篇论文的偏好值,然后结合Ri中每篇论文的主题特征向量,计算该用户对其研究主题的偏好值,并依据偏好值对这些主题进行降序排序,选择位于前列的多个主题,形成该用户的当前研究主题集合;
用户标题空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的标题空间特征向量,然后将这些标题空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户标题空间特征向量;
用户摘要空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的摘要空间特征向量,然后将这些摘要空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户摘要空间特征向量;
用户关键词空间特征向量计算单元,用于从论文模型构建模块读取论文集合Ri中所有论文的论文模型中的关键词空间特征向量,然后将这些关键词空间特征向量进行相同词与其tf-idf值的合并处理,得到该用户的用户关键词空间特征向量;
用户模型构建单元,负责由该用户的当前研究主题集合、用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量构建该用户的用户模型;
所述用户标题、用户摘要和用户关键词三个空间特征向量计算单元中的空间特征向量合并处理是将两个空间特征向量合并成一个空间特征向量,具体操作内容是:先合并该两个空间特征向量中的词,再合并其中每个词的tf-idf值;也就是,如果在合并前某个词出现于两个空间特征向量中,则该词在合并后的空间特征向量中的tf-idf值是其原来合并前的两个tf-idf值之和;如果合并前某个词只出现在一个空间特征向量,则该词在合并后的空间特征向量中的tf-idf值保持不变。
4.根据权利要求1所述的推荐系统,其特征在于:所述论文模型构建模块设置每篇论文pj的论文模型为Mpj={PBj,PCj,PDj},即论文模型是由下述三个维度的向量所组成:
PBj为该论文pj的标题空间特征向量,且 P Bj = { ( W j 1 B , ω j 1 B ) , ( W j 2 B , ω j 2 B ) , . . . , ( W j m j B , ω j m j B ) , . . . , ( W j M j B , ω j M j B ) } , 自然数下标mj为论文pj标题分词序列中的词及其ti-idf值的序号,其最大值Mj为向量PBj中词的总个数,
Figure FDA0000376909100000052
为PBj中的第mj个词语,
Figure FDA0000376909100000053
为词语的tf-idf值;
PCj为该论文pj的摘要空间特征向量,且 P Cj = { ( W j 1 C , ω j 1 C ) , ( W j 2 C , ω j 2 C ) , . . . , ( W j n j C , ω j n j C ) , . . . , ( W j N j C , ω j N j C ) } , 自然数下标nj为论文pj的摘要分词序列中的词及其tf-idf值的序号,其最大值Nj为向量PCj中词的总个数,
Figure FDA0000376909100000056
为PCj中的第nj个词语,为词
Figure FDA0000376909100000058
的tf-idf值;
PDj为论文pj的关键词空间特征向量,且 P Dj = { ( W j 1 D , ω j 1 D ) , ( W j 2 D , ω j 2 D ) , . . . , ( W j s j D , ω j s j D ) , . . . , ( W j S j D , ω j S j D ) } , 自然数下标sj为该论文pj关键词中的词及其tf-idf值的序号,其最大值Sj为向量PDj中词的总个数,
Figure FDA00003769091000000510
为PDj中第sj个词语,
Figure FDA00003769091000000511
为词
Figure FDA00003769091000000512
的tf-idf值。
5.根据权利要求1所述的推荐系统,其特征在于:因每个主题下的作者权威值和论文质量值存在相互关联的影响:作者在某领域内发表的论文质量越高,其权威值也越高;同样地,作者的权威值越高,其论文的质量值也越高;因此,影响作者权威值的因素包括:其发表论文的质量值、作者级别、发表的论文数和该作者在对应论文中的署名位置;影响论文质量值的因素包括:作者的权威值、论文的引用数、发表时间和发表论文的期刊或会议级别。
6.根据权利要求1所述的推荐系统,其特征在于:所述权威值与质量值计算模块中,归属主题tk的所有作者集合R={r1,r2,...,re,...rE},其中,自然数下标e为作者序号,且其最大值为E;
作者re的权威值ae的计算公式为:
Figure FDA00003769091000000513
其中,α为作者权威值的权重系数,V(e)为作者re发表的论文集合,ωej为该作者在论文pj中的权重,qj为论文pj的质量值,Ie为该作者级别;
归属主题tk的论文pj的质量值qj的计算公式为: q j = β Σ e ∈ V ( j ) ( ω ej a e ) + ( 1 - β ) f ( H j , T j , L j ) , 式中,
Figure FDA0000376909100000062
为论文质量值初始化的计算公式,β为该论文质量值的权重系数,V(j)为论文pj中所有作者集合,ωej为作者re在该论文中的权重,ae为作者re的权威值,Lj为该论文所登载期刊或会议的级别,Hj为该论文的引用量,
Figure FDA0000376909100000063
为时间衰减因子,t为系统当前时间,Tj为该论文的发表时间。
7.根据权利要求6所述的推荐系统,其特征在于:所述权威值与质量值计算模块中的各个组成部件的功能如下:
论文质量值初始单元,用于读取主题模型训练模块中的论文的主题特征向量,并判断每个主题特征向量中归属于某个主题的权值是否大于设定阈值;若是,则认为该论文属于该主题;否则,认为该论文不属于该主题,从而得到归属该主题的所有论文;还用于从数据库中读取该主题中所有论文的引用数、发表时间及其刊载的期刊或会议级别,依据公式
Figure FDA0000376909100000064
设置归属某一主题的全部论文的初始质量值;
作者权威值初始化单元,用于从数据库中读取归属于某主题的所有论文的作者信息,得到该主题的全部作者,再依据作者级别设置该主题的全部作者的初始权威值;
作者权威值与论文质量值计算单元,用于依据论文质量值和作者权威值的两个计算公式: q j = β Σ e ∈ V ( j ) ( ω ej a e ) + ( 1 - β ) f ( H j , T j , L j ) a e = α Σ j ∈ V ( e ) ( ω ej q j ) + ( 1 - α ) I e , 迭代计算该主题的所有论文的质量值和作者的权威值,直至结果收敛:即两次迭代计算结果之差的绝对值小于设定数值后,停止迭代运算;
作者与论文排序单元,用于依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序;
8.根据权利要求1所述的推荐系统,其特征在于:所述作者与论文推荐模块中的各个组成部件的功能如下:
用户与论文相似度计算单元,用于读取用户模型构建模块中的用户模型,然后对于用户模型中当前研究主题集合的每个主题,读取经权威值与质量值计算模块排序后该主题的所有论文,计算每篇论文与该用户的相似度;
相似度过滤单元,用于依据用户与论文相似度计算单元计算的相似度,删除其中相似度值小于设定门限的论文,再删除其中用户已经有操作行为的论文,接着选择位于前列设定数量的论文,形成用户在该主题的初始论文推荐初始列表;同时,读取经权威值与质量值计算模块计算排序后,该主题中位于前列按权威值递减排序的多个论文作者,形成用户在该主题的作者推荐初始列表;
作者与论文过滤单元,用于将该用户的当前研究主题集合中所有主题的初始论文推荐初始列表和初始作者推荐初始列表分别进行合并后,并删除该合并后两个论文推荐初始列表中的重复作者和论文,形成该用户的论文推荐列表和作者推荐列表,并将这两个列表结果保存于数据库中。
9.一种采用权利要求1所述的推荐系统的推荐方法,其特征在于,所述方法包括下列各个操作步骤:
(1)抓取论文:论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息,并根据该期刊或会议名称确定该期刊或会议的级别,再以该论文的链接地址作为其唯一标识加以区分后,将上述所有论文的全部信息存储于数据库;
(2)对论文标题、摘要分别进行预处理:使用斯坦福词性标注器StanfordPOS Tagger对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作,并保存词性标记为单数形式名词或物质名词NN、复数形式名词NNS、单数形式专有名词NP、复数形式名词NPS的各种名词,再过滤并删除没有实际意义的停用词后,删除论文摘要中剩余词语数少于5的论文;因论文标题言简意赅,故对论文标题分词后,只需过滤并删除没有实际意义的停用词;
(3)对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型对论文摘要的分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且
Figure FDA0000376909100000071
式中,自然数j和k分别是论文和主题的序号,其最大值分别为J和K;Tjk为论文pj归属主题tk的权值;
(4)构建论文模型:依据步骤(2)获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词,分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-idf值,再由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值各自成对组成的多个键值对,分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量;且由上述三个空间特征向量构建该论文的论文模型;
(5)构建用户模型:从数据库中读取用户在设定时段的全部操作行为记录,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,并依据步骤(3)的所有论文的主题特征向量和公式
Figure FDA0000376909100000081
计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值;再依据该用户对主题偏好值大小对这些主题进行递减排序后,选择位于前列的多个主题组成该用户的当前研究主题集合;然后,读取步骤(4)的论文集合Ri中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量,接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理,得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量,最后,由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型;
(6)计算作者权威值和论文质量值:根据步骤(3)的所有论文的主题特征向量,设定每篇论文归属某个主题的权值门限,判断每篇论文是否归属该主题,以便得到归属每个主题的所有论文标识;再根据每个主题的所有论文标识及其作者信息,得到该主题的所有作者,并依据作者级别设置作者权威值的初始值,再依据论文的引用量、发表时间、所登载期刊或会议的级别,设置论文质量值的初始值;然后迭代计算作者权威值和论文质量值,直至结果收敛,并分别依据作者权威值和论文质量值对作者和论文进行递减排序;
(7)读取用户模型中用户ui的当前研究主题集合,并计算该集合中的每个主题中的每篇论文与用户的相似度,删除相似度值小于设定阈值的论文,并删除用户已经有操作行为的论文,然后提取位于前列的多篇论文作为该主题的论文推荐初始列表;读取用户模型中用户的当前研究主题集合,并读取该集合中每个主题的位于前列的多个权威作者,作为每个主题的作者推荐初始列表;
(8)将步骤(7)中各主题的作者推荐初始列表和论文推荐初始列表进行合并,再执行去重处理,得到向用户推荐的权威作者推荐列表和高质量论文推荐列表,并将该两个推荐列表保存于数据库。
10.根据权利要求9所述的推荐方法,其特征在于:所述步骤(5)包括下列操作内容:
(51)从数据库中读取用户在设定时段的全部操作行为,得到该用户在该设定时段内操作过的全部论文集合Ri,依据用户ui的操作行为计算该用户对集合Ri中每篇论文的偏好值Aij,偏好值的计算公式为:式中,
Figure FDA0000376909100000092
为时间衰减系数,表示随着时间推移,用户对该论文的偏好值会降低;μ为衰减系数,时间因子(t-timeij)中的t为当前时间,timeij为用户ui对该论文pj的操作时刻;fij为用户ui在timeij时刻对该论文pj的评分、即此时用户ui对论文pj的偏好值;fij的计算方法有下述两种:
(a)若用户ui对该论文pj有评分时,fij的数值是用户ui对论文pj的评分值;
(b)若用户ui对该论文pj没有评分时,则根据用户的不同操作行为或浏览该论文pj的时长计算fij的数值:
Figure FDA0000376909100000093
其中,t’ij为用户ui浏览论文pj的时长,α和β分别为用户ui浏览论文pj的时长下限值和上限值;
(52)依据步骤(3)得到的所有论文的主题特征向量,依据公式
Figure FDA0000376909100000094
计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值;
(53)依据该用户对主题偏好值大小对这些主题进行递减排序后,选择位于前列的多个主题组成该用户的当前研究主题集合;
(54)从步骤(4)中读取论文集合Ri中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量,再分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行空间特征向量合并,得到用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量,上述三个空间特征向量与用户的当前研究主题集合构成了用户模型。
11.根据权利要求9所述的推荐方法,其特征在于:所述步骤(6)包括下列操作内容:
(61)根据所有论文的论文主题特征向量,设定每篇论文归属某个主题的门限值,再判断各个主题的每篇论文是否归属该主题,即其权值是否大于该门限值,以便得到归属每个主题的所有论文标识;
(62)读取数据库中存储的每篇论文pj的全部作者信息,得到归属该主题的所有作者标识;
(63)读取归属该主题的每位作者级别Ie,并将该Ie作为该作者权威值的初始值;
(64)读取发表每篇论文pj的期刊或会议的名称,并使用影响因子表示该期刊或会议的级别,再读取论文的引用数与发表时间,设置下述公式
Figure FDA0000376909100000101
的计算结果为论文pj的质量值的初始值;
(65)依据下述两个公式分别迭代计算论文质量值: q j = β Σ e ∈ V ( j ) ( ω ej a e ) + ( 1 - β ) f ( H j , T j , L j ) 和作者权威值: a e = α Σ j ∈ V ( e ) ( ω ej q j ) + ( 1 - α ) I e , 直至结果收敛:也即两次迭代计算结果之差的绝对值小于设定数值,停止迭代运算;并依据权威值和质量值的高低分别对作者和论文进行降序排序。
12.根据权利要求9所述的推荐方法,其特征在于:所述步骤(7)包括下列操作内容:
(71)计算该主题递减排序后的每篇论文与用户之间的相似性:采用余弦相似度分别计算每篇论文与用户模型标题、摘要和关键词的三个空间特征向量的相似性,再将该三个相似性以设定权重分别计算得到该论文与用户的相似性;
(72)删除相似性值小于设定阈值的论文,再删除用户已经有操作行为的论文后,提取位于前列的多篇论文作为用户ui在该主题的候选论文推荐列表;
(73)选取位于最前列的多位权威作者作为用户ui在该主题的候选作者推荐列表。
CN201310396249.4A 2013-09-04 2013-09-04 权威作者和高质量论文推荐系统和推荐方法 Active CN103440329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310396249.4A CN103440329B (zh) 2013-09-04 2013-09-04 权威作者和高质量论文推荐系统和推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310396249.4A CN103440329B (zh) 2013-09-04 2013-09-04 权威作者和高质量论文推荐系统和推荐方法

Publications (2)

Publication Number Publication Date
CN103440329A true CN103440329A (zh) 2013-12-11
CN103440329B CN103440329B (zh) 2016-05-18

Family

ID=49694022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310396249.4A Active CN103440329B (zh) 2013-09-04 2013-09-04 权威作者和高质量论文推荐系统和推荐方法

Country Status (1)

Country Link
CN (1) CN103440329B (zh)

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN104133839A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能检测功能的数据处理方法及系统
CN104133840A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测及生物识别功能的数据处理方法及系统
CN104572829A (zh) * 2014-12-08 2015-04-29 北京工业大学 一种脑信息学研究推荐方法
CN104951956A (zh) * 2014-03-31 2015-09-30 Tcl集团股份有限公司 一种电影排名方法和装置
CN105373558A (zh) * 2014-08-27 2016-03-02 青岛海尔智能家电科技有限公司 一种衡量产品推荐度的方法及系统
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105740386A (zh) * 2016-01-27 2016-07-06 北京航空航天大学 基于排序集成的论文搜索方法及装置
CN105893563A (zh) * 2016-03-31 2016-08-24 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106156150A (zh) * 2015-04-14 2016-11-23 北大方正集团有限公司 一种微博用户关联信息筛选方法及装置
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106372147A (zh) * 2016-08-29 2017-02-01 上海交通大学 基于文本网络的异构主题网络构建和可视化方法
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN106909618A (zh) * 2017-01-13 2017-06-30 广州薏生网络科技有限公司 一种健康类自媒体上的文章传播综合影响力的计算方法
CN107273431A (zh) * 2017-05-23 2017-10-20 合肥智权信息科技有限公司 一种基于大数据的文献参考价值评估系统和方法
CN107315807A (zh) * 2017-06-26 2017-11-03 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN107729473A (zh) * 2017-10-13 2018-02-23 东软集团股份有限公司 文章推荐方法及其装置
CN107833142A (zh) * 2017-11-08 2018-03-23 广西师范大学 学术社交网络科研合作者推荐方法
CN107943931A (zh) * 2017-11-22 2018-04-20 上海心灵伙伴览育信息技术有限公司 来访者与咨询师的匹配方法及系统
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN108664661A (zh) * 2018-05-22 2018-10-16 武汉理工大学 一种基于频繁主题集偏好的学术论文推荐方法
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN108804557A (zh) * 2018-05-22 2018-11-13 温州医科大学 医学期刊论文推荐方法及系统
CN108932299A (zh) * 2018-06-07 2018-12-04 北京迈格威科技有限公司 用于对线上系统的模型进行更新的方法以及装置
CN108960686A (zh) * 2018-08-20 2018-12-07 杜林蔚 影响力评估方法及系统
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109359292A (zh) * 2018-08-31 2019-02-19 大连诺道认知医学技术有限公司 医学文献筛选方法及装置
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109697208A (zh) * 2018-12-25 2019-04-30 人和未来生物科技(长沙)有限公司 一种面向论文库的作者数据挖掘方法及系统
WO2019085118A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN109741791A (zh) * 2018-12-29 2019-05-10 人和未来生物科技(长沙)有限公司 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN109800429A (zh) * 2019-01-04 2019-05-24 平安科技(深圳)有限公司 主题挖掘方法、装置及存储介质、计算机设备
CN110175265A (zh) * 2019-05-10 2019-08-27 广州优视云集科技有限公司 内容作者、作品评分方法、排行榜生成方法及处理终端
CN110209840A (zh) * 2019-06-06 2019-09-06 北京百奥知信息科技有限公司 一种基于多维特征的论文影响力评估方法
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质
CN110795570A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN110955749A (zh) * 2019-10-24 2020-04-03 浙江工业大学 一种论文关注度的预测方法
CN111325390A (zh) * 2020-02-17 2020-06-23 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN112052308A (zh) * 2020-08-21 2020-12-08 腾讯科技(深圳)有限公司 一种摘要文本提取方法、装置、存储介质和电子设备
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112579889A (zh) * 2020-12-07 2021-03-30 北京百度网讯科技有限公司 物品推荐方法、装置、电子设备及存储介质
CN112948697A (zh) * 2021-04-01 2021-06-11 哈尔滨理工大学 一种基于二部图的科学文章推荐算法
CN113326347A (zh) * 2021-05-21 2021-08-31 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113326355A (zh) * 2021-07-29 2021-08-31 湖南正宇软件技术开发有限公司 提案评分的方法、装置、计算机设备和存储介质
CN113360776A (zh) * 2021-07-19 2021-09-07 西南大学 基于跨表数据挖掘的科技资源推荐方法
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000039725A2 (en) * 1998-12-23 2000-07-06 Net Perceptions, Inc. System, method and article of manufacture for producing item compatible recommendations
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN103049575A (zh) * 2013-01-05 2013-04-17 华中科技大学 一种主题自适应的学术会议搜索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000039725A2 (en) * 1998-12-23 2000-07-06 Net Perceptions, Inc. System, method and article of manufacture for producing item compatible recommendations
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN103049575A (zh) * 2013-01-05 2013-04-17 华中科技大学 一种主题自适应的学术会议搜索系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAZUNARI SUGIYAMA等: "Scholary Paper Recommendation via User`s Recent Research Interest", 《NATIONAL UNIVERSITY OF SINGAPORE》 *

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN103870563B (zh) * 2014-03-07 2017-03-29 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN104951956A (zh) * 2014-03-31 2015-09-30 Tcl集团股份有限公司 一种电影排名方法和装置
CN104133839A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有智能检测功能的数据处理方法及系统
CN104133840A (zh) * 2014-06-24 2014-11-05 国家电网公司 一种具有系统检测及生物识别功能的数据处理方法及系统
CN105373558A (zh) * 2014-08-27 2016-03-02 青岛海尔智能家电科技有限公司 一种衡量产品推荐度的方法及系统
CN104572829A (zh) * 2014-12-08 2015-04-29 北京工业大学 一种脑信息学研究推荐方法
CN104572829B (zh) * 2014-12-08 2018-02-23 北京工业大学 一种脑信息学研究推荐方法
CN106156150B (zh) * 2015-04-14 2019-06-25 北大方正集团有限公司 一种微博用户关联信息筛选方法及装置
CN106156150A (zh) * 2015-04-14 2016-11-23 北大方正集团有限公司 一种微博用户关联信息筛选方法及装置
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
CN105630751A (zh) * 2015-12-28 2016-06-01 厦门优芽网络科技有限公司 一种快速比对文本内容的方法与系统
CN105740386A (zh) * 2016-01-27 2016-07-06 北京航空航天大学 基于排序集成的论文搜索方法及装置
CN105718445B (zh) * 2016-01-28 2018-05-11 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105718445A (zh) * 2016-01-28 2016-06-29 中国人民解放军国防科学技术大学 词与网页的关联度计算方法及装置
CN105894183A (zh) * 2016-03-30 2016-08-24 腾讯科技(深圳)有限公司 项目评价方法及装置
CN105894183B (zh) * 2016-03-30 2020-11-10 腾讯科技(深圳)有限公司 项目评价方法及装置
CN105893563A (zh) * 2016-03-31 2016-08-24 比美特医护在线(北京)科技有限公司 信息处理方法和装置
CN106250438B (zh) * 2016-07-26 2020-07-14 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106372147A (zh) * 2016-08-29 2017-02-01 上海交通大学 基于文本网络的异构主题网络构建和可视化方法
CN106372147B (zh) * 2016-08-29 2020-09-15 上海交通大学 基于文本网络的异构主题网络构建和可视化方法
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
CN106708959A (zh) * 2016-11-30 2017-05-24 重庆大学 一种基于医学文献数据库的组合药物识别与排序方法
CN106909618A (zh) * 2017-01-13 2017-06-30 广州薏生网络科技有限公司 一种健康类自媒体上的文章传播综合影响力的计算方法
CN106844665A (zh) * 2017-01-20 2017-06-13 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN106844665B (zh) * 2017-01-20 2020-05-08 中山大学 一种基于引用关系分布式表达的论文推荐方法
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN108733672B (zh) * 2017-04-14 2023-01-24 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和系统
CN107273431A (zh) * 2017-05-23 2017-10-20 合肥智权信息科技有限公司 一种基于大数据的文献参考价值评估系统和方法
CN107315807A (zh) * 2017-06-26 2017-11-03 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN107315807B (zh) * 2017-06-26 2020-08-04 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN108280114B (zh) * 2017-07-28 2022-01-28 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN107729473A (zh) * 2017-10-13 2018-02-23 东软集团股份有限公司 文章推荐方法及其装置
CN107729473B (zh) * 2017-10-13 2021-03-30 东软集团股份有限公司 文章推荐方法及其装置
WO2019085118A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN107833142A (zh) * 2017-11-08 2018-03-23 广西师范大学 学术社交网络科研合作者推荐方法
CN107943931A (zh) * 2017-11-22 2018-04-20 上海心灵伙伴览育信息技术有限公司 来访者与咨询师的匹配方法及系统
CN108363700A (zh) * 2018-03-23 2018-08-03 北京奇虎科技有限公司 新闻标题的质量评估方法及装置
CN108664661A (zh) * 2018-05-22 2018-10-16 武汉理工大学 一种基于频繁主题集偏好的学术论文推荐方法
CN108804557A (zh) * 2018-05-22 2018-11-13 温州医科大学 医学期刊论文推荐方法及系统
CN108664661B (zh) * 2018-05-22 2021-08-17 武汉理工大学 一种基于频繁主题集偏好的学术论文推荐方法
CN108932299A (zh) * 2018-06-07 2018-12-04 北京迈格威科技有限公司 用于对线上系统的模型进行更新的方法以及装置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN108960686A (zh) * 2018-08-20 2018-12-07 杜林蔚 影响力评估方法及系统
CN109359292B (zh) * 2018-08-31 2023-04-07 大连诺道认知医学技术有限公司 医学文献筛选方法及装置
CN109359292A (zh) * 2018-08-31 2019-02-19 大连诺道认知医学技术有限公司 医学文献筛选方法及装置
CN109359249B (zh) * 2018-09-29 2020-07-10 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109697208A (zh) * 2018-12-25 2019-04-30 人和未来生物科技(长沙)有限公司 一种面向论文库的作者数据挖掘方法及系统
CN109697208B (zh) * 2018-12-25 2020-11-17 人和未来生物科技(长沙)有限公司 一种面向论文库的作者数据挖掘方法及系统
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN109741791A (zh) * 2018-12-29 2019-05-10 人和未来生物科技(长沙)有限公司 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统
CN109800429A (zh) * 2019-01-04 2019-05-24 平安科技(深圳)有限公司 主题挖掘方法、装置及存储介质、计算机设备
CN109800429B (zh) * 2019-01-04 2023-11-03 平安科技(深圳)有限公司 主题挖掘方法、装置及存储介质、计算机设备
CN110175265A (zh) * 2019-05-10 2019-08-27 广州优视云集科技有限公司 内容作者、作品评分方法、排行榜生成方法及处理终端
CN110209840A (zh) * 2019-06-06 2019-09-06 北京百奥知信息科技有限公司 一种基于多维特征的论文影响力评估方法
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和系统
CN110688405A (zh) * 2019-08-23 2020-01-14 上海科技发展有限公司 基于人工智能的专家推荐方法、装置、终端、及介质
CN110795570A (zh) * 2019-10-11 2020-02-14 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN110955749A (zh) * 2019-10-24 2020-04-03 浙江工业大学 一种论文关注度的预测方法
CN111325390B (zh) * 2020-02-17 2023-04-18 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN111325390A (zh) * 2020-02-17 2020-06-23 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN112052308A (zh) * 2020-08-21 2020-12-08 腾讯科技(深圳)有限公司 一种摘要文本提取方法、装置、存储介质和电子设备
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112100470B (zh) * 2020-09-03 2022-11-15 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112579889A (zh) * 2020-12-07 2021-03-30 北京百度网讯科技有限公司 物品推荐方法、装置、电子设备及存储介质
CN112948697A (zh) * 2021-04-01 2021-06-11 哈尔滨理工大学 一种基于二部图的科学文章推荐算法
CN113326347A (zh) * 2021-05-21 2021-08-31 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113326347B (zh) * 2021-05-21 2021-10-08 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN113360776A (zh) * 2021-07-19 2021-09-07 西南大学 基于跨表数据挖掘的科技资源推荐方法
CN113326355A (zh) * 2021-07-29 2021-08-31 湖南正宇软件技术开发有限公司 提案评分的方法、装置、计算机设备和存储介质
CN114201962A (zh) * 2021-12-03 2022-03-18 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN114201962B (zh) * 2021-12-03 2023-07-25 中国中医科学院中医药信息研究所 一种论文新颖性分析方法、装置、介质和设备
CN114003726A (zh) * 2021-12-31 2022-02-01 山东大学 一种基于子空间嵌入的学术论文差异性分析方法

Also Published As

Publication number Publication date
CN103440329B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103440329B (zh) 权威作者和高质量论文推荐系统和推荐方法
Kim et al. When Bitcoin encounters information in an online forum: Using text mining to analyse user opinions and predict value fluctuation
CN103559262B (zh) 基于社区的作者及其学术论文推荐系统和推荐方法
CN102902700B (zh) 基于在线增量演化主题模型的软件自动分类方法
CN103577579B (zh) 基于用户潜在需求的资源推荐方法及系统
Tuarob et al. Automatic tag recommendation for metadata annotation using probabilistic topic modeling
US8463786B2 (en) Extracting topically related keywords from related documents
CN104361102B (zh) 一种基于群组匹配的专家推荐方法及系统
CN103020851B (zh) 一种支持商品评论数据多维分析的度量计算方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN105589948A (zh) 一种文献引用网络可视化及文献推荐方法及系统
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
Tuarob et al. A generalized topic modeling approach for automatic document annotation
CN107357793A (zh) 信息推荐方法和装置
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
Abuhay et al. Analysis of publication activity of computational science society in 2001–2017 using topic modelling and graph theory
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
CN103020213A (zh) 具有明显类别划分的非结构化电子文档的检索方法和系统
CN101826102B (zh) 一种图书关键字自动生成的方法
CN106202065A (zh) 一种跨语言话题检测方法及系统
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
CN102929975A (zh) 基于文档标签表征的推荐方法
CN116595246A (zh) 一种基于知识图谱与读者画像的图书推荐检索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant