CN103440329A

CN103440329A - 权威作者和高质量论文推荐系统和推荐方法

Info

Publication number: CN103440329A
Application number: CN2013103962494A
Authority: CN
Inventors: 卢美莲; 高洁; 王萌星; 秦臻; 刘智超
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2013-12-11
Anticipated expiration: 2033-09-04
Also published as: CN103440329B

Abstract

一种权威作者和高质量论文的推荐系统和推荐方法，该推荐系统根据每个设定主题，利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素，计算作者权威值及论文质量值，并据此推荐指定主题的权威作者和高质量的论文，避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文，并能降低系统计算量，提高系统反应时间。本发明依据学术论文特性，综合考虑作者权威值和论文质量值的各种影响因素，改进了相关算法，提高了推荐结果的准确性，不仅能够为用户推荐高质量论文，还显著缩减计算时间，实时更新效果好；在论文推荐列表中还能够提高推荐结果的多样性，并克服现有系统导致用户视野越来越窄的缺陷。

Description

权威作者和高质量论文推荐系统和推荐方法

技术领域

本发明涉及一种权威作者和高质量论文推荐系统和方法，确切地说，涉及一种针对用户操作行为的权威作者和高质量论文的个性化推荐系统和推荐方法，属于数据挖掘和机器学习的技术领域。

背景技术

2003年，D.M.Blei等人提出潜在狄利克雷LDA（Latent Dirichlet Allocation)模型。LDA模型是在概率潜在语义分析PLSA（Probabilistic Latent SemanticAnalysis）基础上，使用一个服从Dirichlet分布的K维隐含随机变量γ表示文本的主题概率分布，并模拟文本的生成过程。后来，有人对该模型中的η参数施加Dirichlet先验，使其服从Dirichlet分布，该参数为δ_k，其能够使得LDA模型成为一个完整的文本生成模型。这样，LDA主题模型及其扩展技术就被越来愈多地应用于文本挖掘和信息处理等领域。

LDA是一种非监督的机器学习技术，可用于识别大规模文本集或语料库中潜藏的主题信息。它是采用词袋的方法：将每篇文本视为一个词频向量，从而将文本信息转化为易于建模的数字信息。但是，词袋方法没有考虑词与词之间的顺序，这样虽然将问题的复杂性作了简化处理，同时也为改进模型提供了契机。因每篇文本代表一些主题所构成的一个概率分布，而每个主题又代表一些构成单词的另一个概率分布。由于Dirichlet分布随机向量中各分量间的弱相关性（即各分量之和必须为1），使得人们假想的潜在主题之间是几乎不相关的。

参见图1，介绍LDA对于语料库中的每篇文本所定义的生成过程如下：

（1）对于每篇文本，从其主题分布中抽取一个主题；

（2）从抽取的主题所对应的单词分布中抽取一个单词；

（3）重复上述两个步骤，直至遍历文本中的每个单词。

图1展示了LDA生成过程：其中的δ_k表示主题k中的词概率分布，θ_j表示第j篇文本的主题概率分布，即第j篇文本的主题特征向量。θ_j和δ_k又作为多项式分布的参数，分别用于生成主题和词。K代表主题的总数量，J代表文本的总数量，B_j表示第j篇文本的长度，g_j,b和Z_j,b分别表示第j篇文本中第b个词及该词所属的主题。γ和η是Dirichlet分布的参数，通常是固定值，且对称分布，因此用标量表示。θ_j，δ_k均服从Dirichlet分布。

图1所示的模型表示法被称作“盘子表示法”（plate notation）。图中的阴影圆圈表示可观测变量（observed variable），非阴影圆圈表示潜在变量（latentvariable），箭头表示两变量间的条件依赖性（conditional dependency），方框表示重复抽样，重复抽样的次数在方框的右下角。该模型有两个参数需要推断：文本-主题分布θ_j和主题-词分布δ_k。通过对这两个参数的学习，可以获知文本作者感兴趣的主题，以及每篇文本所涵盖的主题比例等。推断方法主要有LDA模型作者提出的变分-EM算法，以及现在常用的Gibbs抽样法。

再介绍另一种用于Web网页结构挖掘中具有权威性并广泛应用的算法：超链引导的主题搜索HITS（Hyperlink Induced Topic Search）算法，该算法在现有的各种对网页进行链接分析、并提取分组的算法中，应用最广泛。它是利用Web的链接结构进行挖掘，也就是通过两个评价权值—权威度（Authority）和枢纽值（Hub）来评估网页质量；其基本思路是利用页面之间的引用链接挖掘隐含的有用信息（如权威性），其特点是计算简单、效率高。其中：

权威值的计算公式为：网页p的权威值

枢纽值的计算公式为：网页q的枢纽值

其中，q属于所有指向网页p的网页集合，l属于网页p指向的所有网页的集合。

HITS算法认为：对每个网页都应分别考虑其内容权威度和链接权威度，应先评价网页的内容权威度，再评价页面的链接权威度，然后给出该页面的综合评价。内容权威度与网页自身直接提供的内容信息质量相关联，被更多网页所引用的网页，其内容的权威度更高。而链接权威度又与网页提供的超链接页面的质量相关联，引用越多的高质量页面网页，其链接权威度越高。

整体而言，HITS算法效果很好，目前不仅应用于搜索引擎领域，还被自然语言处理和社交分析等多个计算机领域借鉴使用，并取得了很好的应用效果。尽管如此，早先版本的HITS算法仍然存在一些问题，而后续很多基于HITS算法的链接分析方法，也是立足于改进HITS算法存在的这些问题而提出的。

归纳起来，HITS算法主要存在以下多方面不足之处：

（1）计算效率低：因为HITS算法是与查询相关的算法，所以必须在接收到用户查询后才进行实时计算，且HITS算法本身需要进行多轮迭代计算才能获得最终结果，导致其计算效率较低，这是实际应用时必须慎重考虑的问题。

（2）主题漂移问题：如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的相互链接指向，那么使用HITS算法很可能会给予这些无关网页很高的排名，导致搜索结果发生主题漂移，这种现象被称为“紧密链接社区现象”（Tightly-Knit Community Effect）。

（3）易被作弊者操纵结果：HITS从机制上很容易被作弊者操纵，比如作弊者可以建立一个网页，其页面内容增加许多指向高质量网页或著名网站的网址，这就成为一个很好的Hub页面。然后，作弊者再将这个网页链接指向作弊网页，于是可以提升作弊网页的Authority得分。

（4）结构不稳定：在原有的扩充网页集合内，如果添加或删除个别网页或者改变少数链接关系，则HITS算法的排名结果就会有非常大的改变。

为此，2007年Antonietta Grasso等人提出一种推荐权威用户和权威文档的方法。该方法是通过用户相互间的关系，采用HITS算法计算用户的权威值，来推荐权威用户；再通过用户与文档之间的关系，计算文档的权威值，来推荐权威文档。但是，该方法在推荐权威文档时，存在“冷启动”问题，也就是系统用户量较少或者用户操作行为较少时，可能无法推荐或者推荐结果不准确。

后来，2011年Manabu Ohta等人又提出一种基于HITS算法的论文推荐系统。其基本思想是：先从数字图书馆（DL）中搜索与指定术语相关的文章，并提取这些文章中的术语，构建由论文指向该论文出现的术语的二分图，使用HITS算法分析该二分图，按照顺序排队并进行推荐。该方法存在的问题是：计算效率低，系统必须接收到用户的搜索后，才开始实时执行计算操作。

2011年，门瑞在其硕士毕业论文《高质量个性化论文推荐系统研究》中，使用论文所在期刊的影响力因子、论文作者职称、论文的基金资助和论文的引用量等信息对论文的质量进行初始化评价，然后采用PageRank算法进行迭代计算，直至收敛。再对论文进行质量过滤后，根据用户发表过的论文构建用户模型，依据论文内容构建论文模型，然后计算用户与论文的相似度，并依据相似度进行推荐。但是，论文的基金资助信息不能客观反映每篇论文的质量水平，必须将论文的引用量与时间因素相结合，才具有客观评价论文质量的意义。例如，不能因为2002年发表论文A的引用数量大于2011年发表论文B的引用数量，就认为论文A的质量高于论文B的质量。其次，只有在相同研究方向内的评价才对其质量高低有实际意义。再者，该方法仍然存在许多不足之处。例如，由于上述方法是依据用户发表过的论文构建用户模型，因此，该方法不能对未发表过论文的用户构建用户模型，自然也就无法推荐该用户的论文。然而，只要论文质量满足要求，就都参与用户与论文相似度的计算，这样势必增加系统的计算量，从而增加用户的等待时间。上述种种问题都是该方法有待进一步改进的问题。

发明内容

有鉴于此，本发明的目的是提供一种针对用户当前研究方向的权威作者和高质量论文推荐系统和推荐方法，本发明是依据每个主题，利用作者权威值和论文质量值的相互影响关系、作者级别、论文的引用数、发表时间，以及所刊载的期刊/会议的级别等多个因素，更准确地计算作者的权威值和论文的质量值，避免在用户的作者或论文推荐列表中出现权威值或质量值很低的作者与论文，既提高推荐结果的准确性，还能降低系统计算量，提高系统反应时间。

为了达到上述目的，本发明提供了一种权威作者和高质量论文推荐系统，其特征在于：所述推荐系统根据设定的每个主题，利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素，计算作者权威值及论文质量值，并据此推荐权威作者和高质量的论文，以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文，并降低系统的计算量，提高系统的反应时间；该推荐系统设有：论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库；其中：

论文抓取模块，负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息：包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间，并根据该期刊或会议名称确定的该期刊或会议的级别，再以该论文的链接地址作为每篇论文的标识加以区分后，将上述论文全部信息都存储于数据库；

预处理模块，负责从数据库中读取每篇论文的摘要和标题，并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理，以及由分词、停用词剔除两个单元依序对论文标题进行处理，得到每篇论文的摘要分词序列和标题分词序列；其中的分词单元依据空格、标点符号对论文标题、摘要进行分词；词性标注单元对分词后的论文摘要标注词性；词性过滤单元依据词性标注单元的标注结果提取名词，停用词剔除单元删除其中对论文没有实际意义的停用词，以提高后续训练和搜索的效率；

主题模型训练模块，负责读取预处理模块中的论文摘要分词序列，将其作为论文文本执行下述主题模型训练：根据设定的主题个数，利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合，以使每篇论文都具有其归属每个主题的特征向量，再以每篇论文的标识进行区分；

论文模型构建模块，设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元，所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列，再计算每篇论文的标题分词序列中每个词的tf-idf值，得到每篇论文标题的空间特征向量；摘要的空间特征向量计算单元负责读取与处理模块中的每篇论文的摘要分词序列，再计算每篇论文的摘要分词序列中每个词的tf-idf值，得到每篇论文摘要的空间特征向量；关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词，再计算每篇论文的关键词中每个词的tf-idf值，得到每篇论文关键词的空间特征向量；论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型；所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量；

用户模型构建模块，负责构建个性化的用户模型：根据从数据库中获取设定时间段内每个用户的全部操作行为记录，以及从主题模型训练模块中获取的论文主题特征向量，计算该用户的当前研究主题集合；再从论文模型构建模块中获取该论文的论文模型，计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量；并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型；设有：用户当前研究主题计算、用户标题空间特征向量计算、用户摘要空间特征向量计算、用户关键词空间特征向量计算和用户模型构建五个单元；

权威值与质量值计算模块，负责迭代计算针对每个主题的论文作者权威值和论文质量值：读取主题模型训练模块中的论文的主题特征向量，得到归属某主题的所有论文，再从数据库中读取归属于该主题的所有论文的作者信息，得到该主题的全部作者；并依据作者级别设置该主题的全部作者权威值的初始值，依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值；然后，迭代计算该主题的所有作者权威值和论文质量值，直至结果收敛；最后，依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序；设有：作者权威值初始化、论文质量值初始化、作者权威值与论文质量值计算、作者与论文排序四个单元；

作者与论文推荐模块，用于从用户模型读取用户的当前研究主题集合，对于该集合中的每个主题，读取经由权威值与质量值计算模块计算排序后的该主题的所有论文，再计算每篇论文与该用户的相似度后，删除其中相似度值小于设定门限的论文，再删除其中用户已经有操作行为的论文，选择位于前列设定数量的论文，形成该用户在该主题的论文推荐初始列表；同时，读取经由权威值与质量值计算模块计算排序后，位于该主题前列的多个作者，形成该用户在该主题的作者推荐初始列表；再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后，删除其中重复的论文和作者，形成该用户的论文推荐列表和作者推荐列表，并将这两个列表保存于数据库；设有：用户与论文相似度计算、相似度过滤和作者与论文过滤三个单元；

数据库，用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表，以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录，每条操作行为记录包含：用户标识、论文标识、操作行为和起止时间。

为了达到上述目的，本发明还提供了一种采用本发明推荐系统的推荐方法，其特征在于，所述方法包括下列各个操作步骤：

（1）抓取论文：论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息，并根据该期刊或会议名称确定该期刊或会议的级别，再以该论文的链接地址作为其唯一标识加以区分后，将上述所有论文的全部信息存储于数据库；

（2）对论文标题、摘要分别进行预处理：使用斯坦福词性标注器StanfordPOS Tagger（Stanford Log-Linear Part-Of-Speech Tagger）对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作，并保存词性标记为单数形式名词或物质名词NN（Noun,singular or mass）、复数形式名词NNS（Noun,plural）、单数形式专有名词NP（Proper noun,singular）、复数形式名词NPS（Propernoun,plural）的各种名词，再过滤并删除没有实际意义的停用词后，还删除论文摘要中剩余词语数少于5的论文；因论文标题言简意赅，故对论文标题分词后，只需过滤并删除没有实际意义的停用词；

（3）对论文摘要分词序列进行主题模型训练：按照设定的主题个数，使用潜在狄利克雷分布LDA（Latent Dirichlet Allocation）主题模型对论文摘要的分词序列进行主题模型训练，得到该论文的主题特征向量：TS_j=(T_j1,T_j2,...,T_jk,...,T_jK)，且

式中，自然数j和k分别是论文和主题的序号，其最大值分别为J和K；T_jk为论文p_j归属主题t_k的权值；

（4）构建论文模型：依据步骤（2）获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词，分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-idf值，再由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值各自成对组成的多个键值对，分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量；且由上述三个空间特征向量构建该论文的论文模型；

（5）构建用户模型：从数据库中读取用户在设定时段的全部操作行为记录，得到该用户在该设定时段内操作过的全部论文集合R_i，依据用户u_i的操作行为计算该用户对集合R_i中每篇论文的偏好值A_ij，并依据步骤（3）的所有论文的主题特征向量和公式计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值；再依据该用户对主题偏好值大小对这些主题进行递减排序后，选择位于前列的多个主题组成该用户的当前研究主题集合；然后，读取步骤（4）的论文集合R_i中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量，接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理，得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量，最后，由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型；

（6）计算作者权威值和论文质量值：根据步骤（3）的所有论文的主题特征向量，设定每篇论文归属某个主题的权值门限，判断每篇论文是否归属该主题，以便得到归属每个主题的所有论文标识；再根据每个主题的所有论文标识及其作者信息，得到该主题的所有作者，并依据作者级别设置作者权威值的初始值，再依据论文的引用量、发表时间、所登载期刊或会议的级别，设置论文质量值的初始值；然后迭代计算作者权威值和论文质量值，直至结果收敛，并分别依据作者权威值和论文质量值对作者和论文进行递减排序；

（7）读取用户模型中用户u_i的当前研究主题集合，并计算该集合中的每个主题中的每篇论文与用户的相似度，删除相似度值小于设定阈值的论文，并删除用户已经有操作行为的论文，然后提取位于前列的多篇论文作为该主题的论文推荐初始列表；读取用户模型中用户的当前研究主题集合，并读取该集合中每个主题的位于前列的多个权威作者，作为每个主题的作者推荐初始列表；

（8）将步骤（7）中各主题的作者推荐初始列表和论文推荐初始列表进行合并，再执行去重处理，得到向用户推荐的权威作者推荐列表和高质量论文推荐列表，并将该两个推荐列表保存于数据库。

本发明的创新优点是：依据学术论文的特性，综合考虑作者权威值和论文质量值的各种影响因素，对HITS算法进行改进，提高推荐结果的准确性。传统HITS算法是设置作者权威值和枢纽值都为1，本发明是根据作者级别设置作者权威值的初始值，再根据论文的引用数量、发表时间和登载论文的期刊或会议的级别设置论文质量值的初始值，再迭代计算作者权威值和论文质量值，并依据权威值大小和质量值大小对归属每个主题的作者和论文分别进行降序排序。这种设置作者权威值和论文质量值的初始值方式，使得作者权威值的初始值和论文质量值的初始值更加合理，能有效减少迭代次数。另外，根据用户的操作行为记录和论文的主题特征向量，得到用户最近时间段内的研究主题，然后依据用户的操作行为记录、这些论文的标题分词序列、摘要分词序列和论文的关键词，分别计算标题、摘要和关键词的三个空间特征向量，并依据这些空间特征向量分别构建用户模型与论文模型，然后计算归属用户研究主题的依据质量值排序后的论文与用户的相似度，过滤删除相似度小于设定阈值的论文和剔除用户已有操作行为的论文。只对归属该研究主题的作者与论文进行推荐计算，并最终形成推荐列表。从而能够显著缩减计算时间，实时更新效果更好。

总之，从上述过程可以看出，本发明能够为用户推荐高质量论文，且论文与用户的相似度只要大于设定阈值即可，也就是该论文推荐列表中有部分质量值较高、但相似度较小的论文，这样提高了推荐列表的多样性，能在某种程度上克服了现有推荐系统导致用户视野越来越窄的问题。

附图说明

图1是本发明背景技术中的LDA生成过程示意图。

图2是本发明权威作者和高质量论文推荐系统结构组成示意图。

图3是本发明权威作者和高质量论文推荐系统的推荐方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明权威作者和高质量论文推荐系统是根据设定的每个主题，利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素，计算作者权威值及论文质量值，并据此推荐权威作者和高质量的论文，以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文，并降低系统的计算量，提高系统的反应时间。

参见图2，介绍本发明权威作者和高质量论文推荐系统的结构组成：该推荐系统设有：论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库。其中：

论文抓取模块：负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息：包括标题、摘要、关键词、链接地址、作者姓名与级别、所发表的期刊或会议名称、引用数量和发表时间，并根据该期刊或会议名称确定该期刊或会议的级别，再以该论文的链接地址作为每篇论文的标识加以区分后，将上述论文全部信息都存储于数据库。

预处理模块：负责从数据库中读取每篇论文的摘要和标题，并分别由分词、词性标注、词性过滤与停用词剔除四个单元依序对论文摘要进行处理，以及由分词、停用词剔除两个单元依序对论文标题进行处理，得到每篇论文的摘要分词序列和标题分词序列。其中的分词单元依据空格、标点符号对论文标题、摘要进行分词；词性标注单元对分词后的论文摘要标注词性；词性过滤单元依据词性标注单元的标注结果提取名词，停用词剔除单元删除其中对论文没有实际意义的停用词，以提高后续训练和搜索的效率。

主题模型训练模块：负责读取预处理模块中的论文摘要分词序列，将其作为论文文本执行下述主题模型训练：根据设定的主题个数，利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合，以使每篇论文都具有其归属每个主题的特征向量，再以每篇论文的标识进行区分。

论文模型构建模块：设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元，其中，标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列，再计算每篇论文的标题分词序列中每个词的tf-idf值，得到每篇论文标题的空间特征向量。摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列，再计算每篇论文的摘要分词序列中每个词的tf-idf值，得到每篇论文摘要的空间特征向量。关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词，再计算每篇论文的关键词中每个词的tf-idf值，得到每篇论文关键词的空间特征向量。论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型；上述三种空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量。

该论文模型构建模块设置每篇论文p_j的论文模型为M_pj={P_Bj,P_Cj,P_Dj}，即论文模型是由下述三个维度的向量所组成：

P_Bj为该论文p_j的标题空间特征向量，且

P_{Bj} = {(W_{j 1}^{B}, ω_{j 1}^{B}), (W_{j 2}^{B}, ω_{j 2}^{B}), . . ., (W_{j m_{j}}^{B}, ω_{j m_{j}}^{B}), . . ., (W_{j M_{j}}^{B}, ω_{j M_{j}}^{B})},

自然数下标m_j为论文p_j标题分词序列中的词及其ti-idf值的序号，其最大值M_j为向量P_Bj中词的总个数，

为P_Bj中的第m_j个词语，

为词语

的tf-idf值；

P_Cj为该论文p_j的摘要空间特征向量，且

P_{Cj} = {(W_{j 1}^{C}, ω_{j 1}^{C}), (W_{j 2}^{C}, ω_{j 2}^{C}), . . ., (W_{j n_{j}}^{C}, ω_{j n_{j}}^{C}), . . ., (W_{j N_{j}}^{C}, ω_{j N_{j}}^{C})},

自然数下标n_j为论文p_j的摘要分词序列中的词及其tf-idf值的序号，其最大值N_j为向量P_Cj中词的总个数，

为P_Cj中的第n_j个词语，

为词

的tf-idf值；

P_Dj为论文p_j的关键词空间特征向量，且

P_{Dj} = {(W_{j 1}^{D}, ω_{j 1}^{D}), (W_{j 2}^{D}, ω_{j 2}^{D}), . . ., (W_{j s_{j}}^{D}, ω_{j s_{j}}^{D}), . . ., (W_{j S_{j}}^{D}, ω_{j S_{j}}^{D})},

自然数下标s_j为该论文p_j关键词中的词及其tf-idf值的序号，其最大值S_j为向量P_Dj中词的总个数，

为P_Dj中第s_j个词语，

为词

的tf-idf值。

因归属每个主题的作者权威值和论文质量值存在相互关联的影响：作者在某领域内发表的论文质量越高，其权威值也越高；同样地，作者的权威值越高，其论文质量值也越高。故作者权威值的影响因素包括：其论文质量值、作者级别、发表的论文数和该作者在对应论文中的署名位置。影响论文质量值的因素包括：作者权威值、论文的引用数、发表时间和发表论文的期刊或会议级别。

用户模型构建模块：负责构建个性化的用户模型：根据从数据库中获取设定时间段内每个用户的全部操作行为记录，以及从主题模型训练模块中获取的论文主题特征向量，计算该用户的当前研究主题集合；再从论文模型构建模块中获取该论文的论文模型，计算该用户的用户标题、用户摘要和用户关键词共三个空间特征向量；并由该用户的当前研究主题集合与用户标题、用户摘要和用户关键词三个空间特征向量构成该用户的用户模型。该模块设有五个单元：用户当前研究主题计算单元、用户标题空间特征向量计算单元、用户摘要空间特征向量计算单元、用户关键词空间特征向量计算单元和用户模型构建单元；这五个组成单元的功能介绍如下：

用户当前研究主题计算单元，用于读取存储于数据库中设定时间段内每个用户对所存储的全部论文包括阅读、收藏、分享、下载和评分的全部操作行为记录，再读取这些操作行为记录中的论文标识，得到该用户在该设定时间段内操作过的论文集合R_i，并根据该用户操作行为计算其对R_i中每篇论文的偏好值，然后结合R_i中每篇论文的主题特征向量，计算该用户对其研究主题的偏好值，并依据偏好值对这些主题进行降序排序，选择位于前列的多个主题，形成该用户的当前研究主题集合。

用户标题空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的标题空间特征向量，然后将这些标题空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户标题空间特征向量。

用户摘要空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的摘要空间特征向量，然后将这些摘要空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户摘要空间特征向量。

用户关键词空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的关键词空间特征向量，然后将这些关键词空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户关键词空间特征向量。

用户模型构建单元，负责由该用户的当前研究主题集合、用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量构建该用户的用户模型。

这里需要说明的是：用户标题、用户摘要和用户关键词三个空间特征向量计算单元中的空间特征向量合并处理操作是将两个空间特征向量合并成一个空间特征向量，具体操作内容是：先合并该两个空间特征向量中的词，再合并其中每个词的tf-idf值；也就是，如果在合并前某个词出现于两个空间特征向量中，则该词在合并后的空间特征向量中的tf-idf值是其原来合并前的两个tf-idf值之和；如果合并前某个词只出现在一个空间特征向量，则该词在合并后的空间特征向量中的tf-idf值保持不变。

该用户模型构建模块将所有用户、所有论文和所有主题分别组成为：用户集合U={u₁,u₂,...,u_i,...,u_I}，论文集合P={p₁,p₂,...,p_j,...,p_J}和主题集合T={t₁,t₂,...,t_k,...,t_K}，其中，自然数i、j和k分别为用户、论文和主题的序号，其最大值分别为：I、J和K；用户u_i的用户模型为M_ui={U_Ti,U_Bi,U_Ci,U_Di}，即用户模型是由下述四个维度的向量所组成：

U_Ti为用户u_i当前研究主题集合、即主题集合T的子集，且

自然数下标s_i为该用户当前研究主题的序号，其最大值S_i为用户u_i的当前研究主题的总个数；

U_Bi为用户u_i操作过的论文集合R_i中所有论文标题分词序列的用户标题空间特征向量，且

U_{Bi} = {(W_{i 1}, ω_{i 1}), (W_{i 2}, ω_{i 2}), . . ., (W_{i x_{i}}, ω_{i x_{i}}), . . ., (W_{i X_{i}}, ω_{i X_{i}})},

其中，R_i为论文集合P的子集，自然数下标x_i为论文集合R_i中所有论文的标题分词序列中的词及其对应tf-idf值的序号，其最大值X_i为U_Bi中词的总个数，

为U_Bi中的第x_i个词，

为词

的tf-idf值；

U_Ci为用户u_i操作过的论文集合R_i中所有论文摘要分词序列的用户摘要空间特征向量，且

U_{Ci} = {(W_{i 1}^{'}, ω_{i 1}^{'}), (W_{i 2}^{'}, ω_{i 2}^{'}), . . ., (W_{i y_{i}}^{'}, ω_{i y_{i}}^{'}), . . ., (W_{i Y_{i}}^{'}, ω_{i Y_{i}}^{'})},

自然数下标y_i为论文集合R_i中所有论文的摘要分词序列中的词及其对应tf-idf值的序号，其最大值Y_i为U_Ci中词的总个数，

为U_Ci中的第y_i个词语，

为词

的tf-idf值；

U_Di为用户u_i操作过的论文集合R_i中所有论文关键词的用户关键词空间向量，且

U_{Di} = {(W_{i 1}^{''}, ω_{i 1}^{''}), (W_{i 2}^{''}, ω_{i 2}^{''}), . . ., (W_{i z_{i}}^{''}, ω_{i z_{i}}^{''}), . . ., (W_{i Z_{i}}^{''}, ω_{i Z_{i}}^{''})},

自然数下标z_i为论文集合R_i中所有论文的关键词中的词及其对应tf-idf值的序号，其最大值Z_i为U_Di中的词语总个数，

为U_Di中第z_i个词语，

为词的tf-idf值。

权威值与质量值计算模块：负责迭代计算针对每个主题的论文作者权威值和论文质量值：读取主题模型训练模块中的论文的主题特征向量，得到归属某主题的所有论文，再从数据库中读取归属于该主题的所有论文的作者信息，得到该主题的全部作者；并依据作者级别设置该主题的全部作者权威值的初始值，依据论文的引用数、发表时间及其刊载的期刊或会议级别设置归属该主题的全部论文质量值的初始值；然后，迭代计算该主题的所有作者权威值和论文质量值，直至结果收敛；最后，依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序。该模块设有：作者权威值初始化单元、论文质量值初始化单元、作者权威值与论文质量值计算单元和作者与论文排序单元共四个单元；这四个单元的功能说明如下：

论文质量值初始单元，用于读取主题模型训练模块中的论文的主题特征向量，并判断每个主题特征向量中归属于某个主题的权值是否大于设定阈值；若是，则认为该论文属于该主题；否则，认为该论文不属于该主题，从而得到归属该主题的所有论文；还用于从数据库中读取该主题中所有论文的引用数、发表时间及其刊载的期刊或会议级别，依据公式

设置归属某一主题的全部论文的初始质量值。

作者权威值初始化单元，用于从数据库中读取归属于某主题的所有论文的作者信息，得到该主题的全部作者，再依据作者级别设置该主题的全部作者的初始权威值。

作者权威值与论文质量值计算单元，负责依据论文质量值的计算公式

和作者权威值的计算公式：分别迭代计算该主题的所有作者的权威值和论文的质量值，直至结果收敛：即两次迭代计算结果之差的绝对值小于设定数值后，停止迭代运算。

作者与论文排序单元，用于依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序。

在权威值与质量值计算模块中，归属主题t_k的所有作者集合R={r₁,r₂,...,r_e,...r_E}中（最大值为E的自然数下标e为作者序号），涉及下述两个计算公式：

作者r_e的权威值a_e的计算公式：和归属主题t_k的论文p_j的质量值q_j的计算公式：

式中，α和β分别为作者权威值和论文质量值的权重系数，V(e)为作者r_e发表的论文集合，ω_ej为作者在论文p_j中的权重，q_j为论文p_j的质量值，I_e为该作者级别；

为论文质量值初始化的计算公式，V(j)为论文p_j中所有作者集合，ω_ej为作者r_e在该论文中的权重，a_e为作者r_e的权威值，L_j为该论文所登载期刊或会议的级别，H_j为该论文的引用量，

为时间衰减因子，t为系统当前时间，T_j为该论文的发表时间。例如，一篇论文有3个作者时，第一作者权重ω₁=3/(1+2+3)=0.5，第二作者权重ω₂=2/(1+2+3)=1/3，第三作者权重ω₃=1/(1+2+3)=1/6。作者权威值的初始值为I，论文质量值的初始值为f(C,T,L)。

作者与论文推荐模块：用于从用户模型读取用户的当前研究主题集合，对于该集合中的每个主题，读取经由权威值与质量值计算模块计算排序后的该主题的所有论文，再计算每篇论文与该用户的相似度后，删除其中相似度值小于设定门限的论文，再删除其中用户已经有操作行为的论文，选择位于前列设定数量的论文，形成该用户在该主题的论文推荐初始列表；同时，读取经由权威值与质量值计算模块计算排序后，位于该主题前列的多个作者，形成该用户在该主题的作者推荐初始列表；再分别将该用户的当前研究主题集合中所有主题的论文推荐初始列表和作者推荐初始列表进行合并后，删除其中重复的论文和作者，形成该用户的论文推荐列表和作者推荐列表，并将这两个列表保存于数据库，该模块设有：用户与论文相似度计算单元、相似度过滤单元和作者与论文过滤单元，这三个单元的组成部件功能如下：

用户与论文相似度计算单元，用于读取用户模型构建模块中的用户模型，然后对于用户模型中当前研究方向集合的每个主题，读取经权威值与质量值计算模块排序后该主题的所有论文，计算每篇论文与该用户的相似度。

相似度过滤单元，用于依据用户与论文相似度计算单元计算的相似度，删除其中相似度值小于设定门限的论文，再删除其中用户已经有操作行为的论文，接着选择位于前列设定数量的论文，形成用户在该主题的初始论文推荐初始列表；同时，读取经权威值与质量值计算模块计算排序后，该主题中位于前列按权威值递减排序的多个论文作者，形成用户在该主题的作者推荐初始列表。

作者与论文过滤单元，用于将该用户的当前研究集合中所有主题的初始论文推荐初始列表和初始作者推荐初始列表分别进行合并后，并删除该合并后两个论文推荐初始列表中的重复作者和论文，形成该用户的论文推荐列表和作者推荐列表，并将这两个列表结果保存于数据库中。

数据库：用于存储抓取的所有论文的全部信息、作者推荐列表、论文推荐列表，以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录，每条操作行为记录包含：用户标识、论文标识、操作行为和起止时间。

参照图3，介绍本发明权威作者和高质量论文推荐系统的推荐方法，该方法包括下列各个操作步骤：

步骤1，抓取论文：论文抓取模块使用网络爬虫在网络上抓取包括该论文的标题、摘要、关键词、链接地址、作者姓名与级别、发表的期刊或会议名称、引用数量和发表时间的各个论文信息，并根据该期刊或会议名称确定该期刊或会议的级别，再使用该论文的链接地址作为其唯一标识加以区分后，将上述所有论文的全部信息存储于数据库。

步骤2，对论文标题、摘要分别进行预处理：使用斯坦福词性标注器Stanford POS Tagger（Stanford Log-Linear Part-Of-Speech Tagger）对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作，并保存词性标记为单数形式名词或物质名词NN（Noun,singular or mass）、复数形式名词NNS（Noun,plural）、单数形式专有名词NP（Proper noun,singular）、复数形式名词NPS（Proper noun,plural）的各种名词，再过滤并删除没有实际意义的停用词后，还删除论文摘要中剩余词语数少于5的论文；因论文标题言简意赅，故对论文标题分词后，只需过滤并删除没有实际意义的停用词。

步骤3，对论文摘要分词序列进行主题模型训练：按照设定的主题个数，使用潜在狄利克雷分布LDA（Latent Dirichlet Allocation）主题模型对论文摘要的分词序列进行主题模型训练，得到该论文的主题特征向量：TS_j=(T_j1,T_j2,...,T_jk,...,T_jK)，且

式中，自然数j和k分别是论文和主题的序号，其最大值分别为J和K；T_jk为论文p_j归属主题t_k的权值。

步骤4，构建论文模型：依据步骤2获得的每篇论文的标题分词序列、摘要分词序列和从数据库中读取的每篇论文关键词，分别计算每篇论文标题分词序列、摘要分词序列和关键词中每个词的tf-idf值，再由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值各自成对组成的多个键值对，分别形成该论文的标题空间特征向量、摘要空间特征向量和关键词空间特征向量；且由上述三个空间特征向量构建该论文的论文模型。

步骤5，构建用户模型：从数据库中读取用户在设定时段的全部操作行为记录，得到该用户在该设定时段内操作过的全部论文集合R_i，依据用户u_i的操作行为计算该用户对集合R_i中每篇论文的偏好值A_ij，并依据步骤3的所有论文的主题特征向量和公式

计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值；再依据该用户对主题偏好值大小对这些主题进行递减排序后，选择位于前列的多个主题组成该用户的当前研究主题集合；然后，读取步骤4的论文集合R_i中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量，接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理，得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量，最后，由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型。该步骤包括下列操作内容：

（51）从数据库中读取用户在设定时段的全部操作行为，得到该用户在该设定时段内操作过的全部论文集合R_i，依据用户u_i的操作行为计算该用户对集合R_i中每篇论文的偏好值A_ij，偏好值的计算公式为：

式中，为时间衰减系数，表示随着时间推移，用户对该论文的偏好值会降低；μ为衰减系数，时间因子(t-time_ij)中的t为当前时间，time_ij为用户u_i对该论文p_j的操作时刻；f_ij为用户u_i在time_ij时刻对该论文p_j的评分、即此时用户u_i对论文p_j的偏好值。f_ij的计算方法有下述两种：

（a）若用户u_i对该论文p_j有评分时，f_ij的数值是用户u_i对论文p_j的评分值。

（b）若用户u_i对该论文p_j没有评分时，则根据用户的不同操作行为或浏览该论文p_j的时长计算f_ij的数值：

其中，t’_ij为用户u_i浏览论文p_j的时长，α和β分别为用户u_i浏览论文p_j的时长下限值和上限值。

（52）依据步骤（3）得到的所有论文的主题特征向量，依据公式

计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值。

（53）依据该用户对主题偏好值大小对这些主题进行递减排序后，选择位于前列的多个主题组成该用户的当前研究主题集合。

（54）从步骤4中读取论文集合R_i中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量，再分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行空间特征向量合并，得到用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量，上述三个空间特征向量与用户的当前研究主题集合构成了用户模型。

步骤6，计算作者权威值和论文质量值：根据步骤3的所有论文的主题特征向量，设定每篇论文归属某个主题的权值门限，判断每篇论文是否归属该主题，以便得到归属每个主题的所有论文标识；再根据每个主题的所有论文标识及其作者信息，得到该主题的所有作者，并依据作者级别设置作者权威值的初始值，再依据论文的引用量、发表时间、所登载期刊或会议的级别，设置论文质量值的初始值；然后迭代计算作者权威值和论文质量值，直至结果收敛，并分别依据作者权威值和论文质量值对作者和论文进行递减排序。该步骤6包括下列操作内容：

（61）根据所有论文的论文主题特征向量，设定每篇论文归属某个主题的门限值，再判断各个主题的每篇论文是否归属该主题，即其权值是否大于该门限值，以便得到归属每个主题的所有论文标识。

（62）读取数据库中存储的每篇论文p_j的全部作者信息，得到归属该主题的所有作者标识。

（63）读取归属该主题的每位作者级别I_e，并将该I_e作为该作者权威值的初始值。

（64）读取发表每篇论文p_j的期刊或会议的名称，并使用影响因子表示该期刊或会议的级别，再读取论文的引用数与发表时间，设置下述公式

的计算结果为论文p_j的质量值的初始值。

（65）依据下述两个公式分别迭代计算论文质量值：

q_{j} = β \underset{e &Element; V (j)}{Σ} (ω_{ej} a_{e}) + (1 - β) f (H_{j}, T_{j}, L_{j})

和作者权威值：

a_{e} = α \underset{j &Element; V (e)}{Σ} (ω_{ej} q_{j}) + (1 - α) I_{e},

直至结果收敛：也即两次迭代计算结果之差的绝对值小于设定数值，停止迭代运算；并依据权威值和质量值的高低分别对作者和论文进行降序排序。

步骤7，读取用户模型中用户u_i的当前研究主题集合，并计算该集合中的每个主题中的每篇论文与用户的相似度，删除相似度值小于设定阈值的论文，并删除用户已经有操作行为的论文，然后提取位于前列的多篇论文作为该主题的论文推荐初始列表；读取用户模型中用户的当前研究主题集合，并读取该集合中每个主题的位于前列的多个权威作者，作为每个主题的作者推荐初始列表。该步骤包括下列操作内容：

（71）计算该主题递减排序后的每篇论文与用户之间的相似性：采用余弦相似度分别计算每篇论文与用户模型标题、摘要和关键词的三个空间特征向量的相似性，再将该三个相似性以设定权重分别计算得到该论文与用户的相似性；

（72）删除相似性值小于设定阈值的论文，再删除用户已经有操作行为的论文后，提取位于前列的多篇论文作为用户u_i在该主题的候选论文推荐列表；

（73）选取位于最前列的多位权威作者作为用户u_i在该主题的候选作者推荐列表。

步骤8，将步骤7中各主题的作者推荐初始列表和论文推荐初始列表进行合并，再执行去重处理，得到向用户推荐的权威作者推荐列表和高质量论文推荐列表，并将该两个推荐列表保存于数据库。

Claims

1.一种权威作者和高质量论文的推荐系统，其特征在于：所述推荐系统根据每个设定主题，利用包括论文的作者级别、引用数、发表时间及其发表的期刊或会议级别的多个因素，计算作者权威值及论文质量值，并据此推荐权威作者和高质量的论文，以避免在作者或论文推荐列表中出现权威值低的作者或质量值低的论文，并降低系统的计算量，提高系统的反应时间；该推荐系统设有：论文抓取模块、预处理模块、主题模型训练模块、用户模型构建模块、论文模型构建模块、权威值与质量值计算模块、作者与论文推荐模块和数据库；其中：

论文模型构建模块，设有标题、摘要与关键词共三个空间特征向量计算单元和论文模型构建单元，所述标题的空间特征向量计算单元负责读取预处理模块中的每篇论文的标题分词序列，再计算每篇论文的标题分词序列中每个词的tf-idf值，得到每篇论文标题的空间特征向量；摘要的空间特征向量计算单元负责读取预处理模块中的每篇论文的摘要分词序列，再计算每篇论文的摘要分词序列中每个词的tf-idf值，得到每篇论文摘要的空间特征向量；关键词的空间特征向量计算单元负责读取存储于数据库中的每篇论文的关键词，再计算每篇论文的关键词中每个词的tf-idf值，得到每篇论文关键词的空间特征向量；论文模型构建单元根据每篇论文的上述三个空间特征向量构建该论文的论文模型；所述空间特征向量是分别由上述标题、摘要和关键词三部分中各自的词和该词的tf-idf值成对组成的多个键值对形成的向量；

2.根据权利要求1所述的推荐系统，其特征在于：所述用户模型构建模块将所有用户、所有论文和所有主题分别组成为：用户集合U={u₁,u₂,...,u_i,...,u_I}，论文集合P={p₁,p₂,...,p_j,...,p_J}和主题集合T={t₁,t₂,...,t_k,...,t_K}，其中，自然数i、j和k分别为用户、论文和主题的序号，其最大值分别为：I、J和K；用户u_i的用户模型为M_ui={U_Ti,U_Bi,U_Ci,U_Di}，即用户模型是由下述四个维度的向量所组成：

U_Ti为用户u_i当前研究主题集合、即主题集合T的子集，且自然数下标s_i为该用户当前研究主题的序号，其最大值S_i为用户u_i的当前研究主题的总个数；

U_{Bi} = {(W_{i 1}, ω_{i 1}), (W_{i 2}, ω_{i 2}), . . ., (W_{i x_{i}}, ω_{i x_{i}}), . . ., (W_{i X_{i}}, ω_{i X_{i}})},

为U_Bi中的第x_i个词，

为词

的tf-idf值；

U_{Ci} = {(W_{i 1}^{'}, ω_{i 1}^{'}), (W_{i 2}^{'}, ω_{i 2}^{'}), . . ., (W_{i y_{i}}^{'}, ω_{i y_{i}}^{'}), . . ., (W_{i Y_{i}}^{'}, ω_{i Y_{i}}^{'})},

自然数下标y_i为论文集合R_i中所有论文的摘要分词序列中的词及其对应tf-idf值的序号，其最大值Y_i为U_Ci中词的总个数，为U_Ci中的第y_i个词语，

为词

的tf-idf值；

U_{Di} = {(W_{i 1}^{''}, ω_{i 1}^{''}), (W_{i 2}^{''}, ω_{i 2}^{''}), . . ., (W_{i z_{i}}^{''}, ω_{i z_{i}}^{''}), . . ., (W_{i Z_{i}}^{''}, ω_{i Z_{i}}^{''})},

自然数下标z_i为论文集合R_i中所有论文的关键词中的词及其对应tf-idf值的序号，其最大值Z_i为U_Di中的词语总个数，为U_Di中第z_i个词语，

为词

的tf-idf值。

3.根据权利要求1所述的推荐系统，其特征在于：所述用户模型构建模块中的各个组成部件的功能如下：

用户当前研究主题计算单元，用于读取存储于数据库中设定时间段内每个用户对所存储的全部论文包括阅读、收藏、分享、下载和评分的全部操作行为记录，再读取这些操作行为记录中的论文标识，得到该用户在该设定时间段内操作过的论文集合R_i，并根据该用户操作行为计算其对R_i中每篇论文的偏好值，然后结合R_i中每篇论文的主题特征向量，计算该用户对其研究主题的偏好值，并依据偏好值对这些主题进行降序排序，选择位于前列的多个主题，形成该用户的当前研究主题集合；

用户标题空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的标题空间特征向量，然后将这些标题空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户标题空间特征向量；

用户摘要空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的摘要空间特征向量，然后将这些摘要空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户摘要空间特征向量；

用户关键词空间特征向量计算单元，用于从论文模型构建模块读取论文集合R_i中所有论文的论文模型中的关键词空间特征向量，然后将这些关键词空间特征向量进行相同词与其tf-idf值的合并处理，得到该用户的用户关键词空间特征向量；

用户模型构建单元，负责由该用户的当前研究主题集合、用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量构建该用户的用户模型；

所述用户标题、用户摘要和用户关键词三个空间特征向量计算单元中的空间特征向量合并处理是将两个空间特征向量合并成一个空间特征向量，具体操作内容是：先合并该两个空间特征向量中的词，再合并其中每个词的tf-idf值；也就是，如果在合并前某个词出现于两个空间特征向量中，则该词在合并后的空间特征向量中的tf-idf值是其原来合并前的两个tf-idf值之和；如果合并前某个词只出现在一个空间特征向量，则该词在合并后的空间特征向量中的tf-idf值保持不变。

4.根据权利要求1所述的推荐系统，其特征在于：所述论文模型构建模块设置每篇论文p_j的论文模型为M_pj={P_Bj,P_Cj,P_Dj}，即论文模型是由下述三个维度的向量所组成：

P_Bj为该论文p_j的标题空间特征向量，且

P_{Bj} = {(W_{j 1}^{B}, ω_{j 1}^{B}), (W_{j 2}^{B}, ω_{j 2}^{B}), . . ., (W_{j m_{j}}^{B}, ω_{j m_{j}}^{B}), . . ., (W_{j M_{j}}^{B}, ω_{j M_{j}}^{B})},

为P_Bj中的第m_j个词语，

为词语的tf-idf值；

P_Cj为该论文p_j的摘要空间特征向量，且

P_{Cj} = {(W_{j 1}^{C}, ω_{j 1}^{C}), (W_{j 2}^{C}, ω_{j 2}^{C}), . . ., (W_{j n_{j}}^{C}, ω_{j n_{j}}^{C}), . . ., (W_{j N_{j}}^{C}, ω_{j N_{j}}^{C})},

为P_Cj中的第n_j个词语，为词

的tf-idf值；

P_Dj为论文p_j的关键词空间特征向量，且

P_{Dj} = {(W_{j 1}^{D}, ω_{j 1}^{D}), (W_{j 2}^{D}, ω_{j 2}^{D}), . . ., (W_{j s_{j}}^{D}, ω_{j s_{j}}^{D}), . . ., (W_{j S_{j}}^{D}, ω_{j S_{j}}^{D})},

为P_Dj中第s_j个词语，

为词

的tf-idf值。

5.根据权利要求1所述的推荐系统，其特征在于：因每个主题下的作者权威值和论文质量值存在相互关联的影响：作者在某领域内发表的论文质量越高，其权威值也越高；同样地，作者的权威值越高，其论文的质量值也越高；因此，影响作者权威值的因素包括：其发表论文的质量值、作者级别、发表的论文数和该作者在对应论文中的署名位置；影响论文质量值的因素包括：作者的权威值、论文的引用数、发表时间和发表论文的期刊或会议级别。

6.根据权利要求1所述的推荐系统，其特征在于：所述权威值与质量值计算模块中，归属主题t_k的所有作者集合R={r₁,r₂,...,r_e,...r_E}，其中，自然数下标e为作者序号，且其最大值为E；

作者r_e的权威值a_e的计算公式为：

其中，α为作者权威值的权重系数，V(e)为作者r_e发表的论文集合，ω_ej为该作者在论文p_j中的权重，q_j为论文p_j的质量值，I_e为该作者级别；

归属主题t_k的论文p_j的质量值q_j的计算公式为：

q_{j} = β \underset{e &Element; V (j)}{Σ} (ω_{ej} a_{e}) + (1 - β) f (H_{j}, T_{j}, L_{j}),

式中，

为论文质量值初始化的计算公式，β为该论文质量值的权重系数，V(j)为论文p_j中所有作者集合，ω_ej为作者r_e在该论文中的权重，a_e为作者r_e的权威值，L_j为该论文所登载期刊或会议的级别，H_j为该论文的引用量，

为时间衰减因子，t为系统当前时间，T_j为该论文的发表时间。

7.根据权利要求6所述的推荐系统，其特征在于：所述权威值与质量值计算模块中的各个组成部件的功能如下：

设置归属某一主题的全部论文的初始质量值；

作者权威值初始化单元，用于从数据库中读取归属于某主题的所有论文的作者信息，得到该主题的全部作者，再依据作者级别设置该主题的全部作者的初始权威值；

作者权威值与论文质量值计算单元，用于依据论文质量值和作者权威值的两个计算公式：

q_{j} = β \underset{e &Element; V (j)}{Σ} (ω_{ej} a_{e}) + (1 - β) f (H_{j}, T_{j}, L_{j})

和

a_{e} = α \underset{j &Element; V (e)}{Σ} (ω_{ej} q_{j}) + (1 - α) I_{e},

迭代计算该主题的所有论文的质量值和作者的权威值，直至结果收敛：即两次迭代计算结果之差的绝对值小于设定数值后，停止迭代运算；

作者与论文排序单元，用于依据权威值和质量值的高低分别对归属该主题的全部作者和论文进行递减排序；

8.根据权利要求1所述的推荐系统，其特征在于：所述作者与论文推荐模块中的各个组成部件的功能如下：

用户与论文相似度计算单元，用于读取用户模型构建模块中的用户模型，然后对于用户模型中当前研究主题集合的每个主题，读取经权威值与质量值计算模块排序后该主题的所有论文，计算每篇论文与该用户的相似度；

相似度过滤单元，用于依据用户与论文相似度计算单元计算的相似度，删除其中相似度值小于设定门限的论文，再删除其中用户已经有操作行为的论文，接着选择位于前列设定数量的论文，形成用户在该主题的初始论文推荐初始列表；同时，读取经权威值与质量值计算模块计算排序后，该主题中位于前列按权威值递减排序的多个论文作者，形成用户在该主题的作者推荐初始列表；

作者与论文过滤单元，用于将该用户的当前研究主题集合中所有主题的初始论文推荐初始列表和初始作者推荐初始列表分别进行合并后，并删除该合并后两个论文推荐初始列表中的重复作者和论文，形成该用户的论文推荐列表和作者推荐列表，并将这两个列表结果保存于数据库中。

9.一种采用权利要求1所述的推荐系统的推荐方法，其特征在于，所述方法包括下列各个操作步骤：

（2）对论文标题、摘要分别进行预处理：使用斯坦福词性标注器StanfordPOS Tagger对论文摘要分别进行分词、词性标注、词性过滤与剔除停用词的预处理操作，并保存词性标记为单数形式名词或物质名词NN、复数形式名词NNS、单数形式专有名词NP、复数形式名词NPS的各种名词，再过滤并删除没有实际意义的停用词后，删除论文摘要中剩余词语数少于5的论文；因论文标题言简意赅，故对论文标题分词后，只需过滤并删除没有实际意义的停用词；

（5）构建用户模型：从数据库中读取用户在设定时段的全部操作行为记录，得到该用户在该设定时段内操作过的全部论文集合R_i，依据用户u_i的操作行为计算该用户对集合R_i中每篇论文的偏好值A_ij，并依据步骤（3）的所有论文的主题特征向量和公式

计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值；再依据该用户对主题偏好值大小对这些主题进行递减排序后，选择位于前列的多个主题组成该用户的当前研究主题集合；然后，读取步骤（4）的论文集合R_i中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量，接着分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行各自空间特征向量的合并处理，得到用户标题空间特征向量、用户摘要空间特征向量和用户关键词空间特征向量，最后，由该上述三个空间特征向量与用户的当前研究主题集合构建该用户的用户模型；

10.根据权利要求9所述的推荐方法，其特征在于：所述步骤（5）包括下列操作内容：

（51）从数据库中读取用户在设定时段的全部操作行为，得到该用户在该设定时段内操作过的全部论文集合R_i，依据用户u_i的操作行为计算该用户对集合R_i中每篇论文的偏好值A_ij，偏好值的计算公式为：式中，

为时间衰减系数，表示随着时间推移，用户对该论文的偏好值会降低；μ为衰减系数，时间因子(t-time_ij)中的t为当前时间，time_ij为用户u_i对该论文p_j的操作时刻；f_ij为用户u_i在time_ij时刻对该论文p_j的评分、即此时用户u_i对论文p_j的偏好值；f_ij的计算方法有下述两种：

（a）若用户u_i对该论文p_j有评分时，f_ij的数值是用户u_i对论文p_j的评分值；

其中，t’_ij为用户u_i浏览论文p_j的时长，α和β分别为用户u_i浏览论文p_j的时长下限值和上限值；

计算得到该用户当前的研究主题及该用户对这些研究主题的偏好值；

（53）依据该用户对主题偏好值大小对这些主题进行递减排序后，选择位于前列的多个主题组成该用户的当前研究主题集合；

（54）从步骤（4）中读取论文集合R_i中每篇论文的论文模型中的标题空间特征向量、摘要空间特征向量及关键词空间特征向量，再分别对读取的所有标题空间特征向量、所有摘要空间特征向量、所有关键词空间特征向量进行空间特征向量合并，得到用户标题空间特征向量、用户摘要空间特征向量、用户关键词空间特征向量，上述三个空间特征向量与用户的当前研究主题集合构成了用户模型。

11.根据权利要求9所述的推荐方法，其特征在于：所述步骤（6）包括下列操作内容：

（61）根据所有论文的论文主题特征向量，设定每篇论文归属某个主题的门限值，再判断各个主题的每篇论文是否归属该主题，即其权值是否大于该门限值，以便得到归属每个主题的所有论文标识；

（62）读取数据库中存储的每篇论文p_j的全部作者信息，得到归属该主题的所有作者标识；

（63）读取归属该主题的每位作者级别I_e，并将该I_e作为该作者权威值的初始值；

的计算结果为论文p_j的质量值的初始值；

（65）依据下述两个公式分别迭代计算论文质量值：

q_{j} = β \underset{e &Element; V (j)}{Σ} (ω_{ej} a_{e}) + (1 - β) f (H_{j}, T_{j}, L_{j})

和作者权威值：

a_{e} = α \underset{j &Element; V (e)}{Σ} (ω_{ej} q_{j}) + (1 - α) I_{e},

12.根据权利要求9所述的推荐方法，其特征在于：所述步骤（7）包括下列操作内容：