CN103559262A

CN103559262A - 基于社区的作者及其学术论文推荐系统和推荐方法

Info

Publication number: CN103559262A
Application number: CN201310537842.6A
Authority: CN
Inventors: 卢美莲; 王萌星; 高洁; 刘智超; 秦臻
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-11-04
Filing date: 2013-11-04
Publication date: 2014-02-05
Anticipated expiration: 2033-11-04
Also published as: CN103559262B

Abstract

一种基于社区的作者及其学术论文的推荐系统和推荐方法，该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络，然后，根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型，最后根据得到的双层引用网络和用户兴趣模型，分析用户需求，向用户推荐作者及其论文。系统设有：论文抓取、预处理、双层引用网络构建、用户兴趣模型构建和个性化学术推荐五个模块和数据库。本发明系统既能利用作者间研究内容的相关性，通过主题模型构建作者社区；还能在社区内部计算待推荐的作者和论文的多种属性值，改善现有推荐算法计算量大的缺陷；同时计算作者和论文的多种属性值，使得推荐结果更多样化，更符合用户需求。

Description

基于社区的作者及其学术论文推荐系统和推荐方法

技术领域

本发明涉及一种推荐作者及其学术论文的系统和方法，确切的说，涉及一种基于社区的作者及其学术论文的个性化推荐系统和推荐方法，属于数据挖掘和机器学习的技术领域。

背景技术

2003年，Blei等提出了潜在狄利克雷分布LDA（Latent Dirichlet Allocation）主题模型。随后，研究者对LDA进行了许多改进。基于主题模型的学术论文挖掘是主题模型的一个重要应用，通过对论文主题的挖掘，可以更深入地理解学术论文的发展与进化。2004年，Michal Rosen-Zvi等人在LDA的基础上提出了作者-主题AT（Author-Topic）模型。AT模型是从作者的角度建立学术论文的文本主题模型。对于学术论文语料集合，LDA模型没有考虑论文的作者信息，实际上，它是把所有的作者都看作完全等同的，即所有作者都对应着一个特定的语言模型。在AT模型中，所有的作者共享一个主题的集合。也就是，每个作者不再限定其只能对应一个主题，而是对应于一个主题上的分布；同时文本-主题的分布也随之消失，即被作者-主题的分布取代。

在AT模型中，语料库中的每个作者与T个主题的一个多项分布相对应，将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对应，将这个多项分布记为。这两个参数θ和分别有一个带有超参数α和β的Dirichlet先验分布。对于一篇文本d，首先从该文本d的作者中抽取一个作者，再从该作者所对应的多项分布θ中抽取一个主题z，然后再从主题z所对应的多项分布中抽取一个单词w。然后，重复执行该过程N次，就生成了一个文本，这里的N是文本的单词总数。这个生成过程参见图1所示。图1中的阴影圆圈表示可观测变量，非阴影圆圈表示潜在变量，箭头表示两变量间的条件依赖性，方框表示重复抽样，重复次数在方框的右下角。该模型有两个参数需要推断：一个是作者-主题分布θ，另外是主题-单词分布。通过学习这两个参数，就能够获知作者感兴趣的主题。

2006年，Wang等人在LDA的基础上提出了非马尔科夫连续时间模型，即时间主题TOT（Topic-Over-Time）模型。TOT模型认为：对于一个文本，除了文本信息可见以外，时间标签也是可见信息，主题的发现不仅仅受到单词的出现频率的影响，还受到时间变化的影响。TOT模型通过主题分布信息同时与单词和时间标签相关联。对于语料库中的每篇文本，TOT定义了如下生成过程（参见图2所示）：对任意一篇文本d，从对应的文本-主题分布θ中抽取一个主题，根据抽取的主题对应的主题-单词分布中，再抽取一个单词；还根据抽取的主题对应的主题-时间分布ψ中，抽取一个时间戳。重复上述过程，直至遍历文本中的每一个单词。该模型有三个参数需要推断：文本-主题分布θ、主题-单词分布和主题-时间分布ψ。通过学习这三个参数，可以知道主题随时间的发展变化。

将主题模型与社区发现算法进行结合是近几年学术挖掘领域的研究热点，利用主题模型提取论文间和作者间的关系，然后利用这些关系结合社区发现算法来提取社区信息。Daifeng Li等人在AT模型的基础上添加了社区的信息，提出作者社区主题模型ACTM（Author-Community-Topic Model），从而可以直接获得作者的社区分布信息，同时还提出了加入了时间信息的动态社区主题模型DCTM（Dynamic Community Topic Model）。DCTM模型在给定的时间段内分别进行ACTM训练，以伯努利分布来判断：当前时间段的社区分布是否与前一时间段有关。但是，该模型是以给定时间范围为基础，不能准确地反映社区、主题随着时间进展而发生的变化，同时该模型仅仅构建了社区，没有提供对社区节点属性的计算方法，尚不能用于作者和论文推荐。

目前的现有技术中，常用的作者和论文推荐推荐方法包括：基于内容的推荐、协同过滤推荐、基于引用网络的推荐等。

基于内容的推荐算法是利用用户以往对作者或论文的操作建立用户兴趣模型，对作者或论文的研究内容进行分析，计算作者或论文与用户兴趣之间的相似性，然后向用户推荐作者或论文。但是，该方法有以下缺点：用户仅仅能够得到与其过去喜好类似的论文或作者，而无法得到能够为其拓展研究思路的作者或论文。再者，以论文为例，基于内容的推荐方法对研究内容进行分析，无法有效分辨论文的质量。

协同过滤方法是利用具有共同研究兴趣的群体的喜好来向用户推荐其感兴趣的作者或论文。协同过滤系统能够发现用户未曾接触过的新研究方向中的作者或论文，这是基于内容推荐无法做到的。但其也存在着一些缺陷，最突出的问题是冷启动和稀疏性的问题。

（1）冷启动：当某些论文或作者没有任何用户阅读或评价，或者某些用户未阅读过任何论文（对于推荐系统来说，该类用户没有任何信息，也就无法构建兴趣模型）时，系统无法向用户推荐或无法推荐能符合其需求的论文或作者。

（2）稀疏性：当系统中论文、作者或用户数量十分庞大时，用户对论文的操作相对地就非常稀少，从而导致难以找到相似用户集，大大影响了推荐系统的效率。

在学术领域中，作者间或论文间都存在着一种特有的社会关系，即引用关系，由此就形成了引用网络。引用网络中的节点是论文或作者，边表示了论文间或作者间的引用关系。在引用网络中，论文间的引用关系体现了论文内容的相关性及知识的传递。作者间的引用关系隐含了论文作者组成的研究群体，该群体具有相似的研究内容，并表示某个领域的研究现状与未来发展趋势。

基于引用网络的推荐通常是将社会网络分析方法、网络链接PageRank算法等运用到引用网络中来，分析网络结构和网络中的节点属性，从而提取出符合推荐要求的作者节点或论文节点。Pera提出在引用网络中引入作者权威值，利用引用关系进行权威值的传播，最终将具有较高权威值的作者推荐给用户。S.Phineas Upham,Henry Small通过分析引用网络，从中提取有可能引领研究前沿的论文及其作者。由此可以看出，基于引用网络的推荐方法既可以向用户推荐相关研究领域的权威作者，也可以向用户推荐能够拓宽其研究思路的作者。

但是，由于引用网络的构造、聚类等技术的使用问题，使得引用网络的研究至今还很不成熟，存在很多问题。例如：

（1）计算效率低：引用网络中的数据量非常大，在分析论文间或作者间的引用关系时，需要抽取的信息量很多，因此计算工作量的开销很大。

（2）信息缺失：在论文的引文信息不全时，通常会导致引用网络的结构过于分散，降低了引用网络的质量，直接影响到后续的网络分析和处理，最终会导致推荐效果的降低。

（3）引用类型区分：论文中存在着不符合规范的引用情况，例如存在一些“装饰性”的引文。这就需要对引文进行过滤，并且鉴别出各种不同的引用类型。

综上所述，现有的作者和论文推荐技术存在着如下三个主要问题：

（1）作者、论文或用户的某些信息缺失，会对推荐效果产生很大影响。如协同过滤算法中的稀疏性问题；基于引用网络的推荐算法中，由于论文引用信息过少，导致的引用网络质量较低的问题。

（2）现有的各种推荐算法都需要利用作者或论文的各种特征值和用户的兴趣特征进行计算，以提取待推荐的作者或论文；当作者或论文数量很大时，计算工作的开销非常大。

（3）现有推荐算法在推荐过程中，仅针对作者或论文某一方面的特性进行待推荐作者或论文的选取，使得最终推荐结果过于单一。

发明内容

有鉴于此，本发明的目的是提供一种基于社区的作者及其学术论文的推荐系统和方法，本发明利用双层引用网络和社区，选取能够满足用户需求的作者和论文向用户进行推荐。该系统既能够利用作者间研究内容的相关性，通过主题模型构建作者社区，解决因信息缺失导致社区构建结果较差的问题；还能在社区内部计算待推荐的作者和论文的相关值，改善了现有推荐算法计算量较大的缺陷；同时，通过计算作者和论文的多种属性值，使得推荐结果更加多样化，更加符合用户的需求。

为了达到上述目的，本发明提供了一种基于社区的作者及其学术论文的推荐系统，其特征在于，该系统是先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络，然后，根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型，最后根据得到的双层引用网络和用户兴趣模型，分析用户需求，向用户推荐作者及其论文；该系统设有：论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库；其中：

论文抓取模块，负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息，将每篇论文使用该论文的链接地址用作唯一标识加以区分后，将抓取的论文全部信息都存储于数据库；

预处理模块，负责从数据库中读取每篇论文的摘要，并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后，得到论文摘要的分词序列；其中分词单元依据空格、标点符号对论文摘要进行分词，词性标注单元对分词后的论文摘要标注词性，词性过滤单元依据标注的词性提取名词，停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词，以节省存储空间和提高搜索效率；

双层引用网络构建模块，负责从数据库读取论文的作者ID、参考文献和发表时间的信息，从预处理模块读取论文摘要的分词序列，并由其四个组成构件：基础网络构建单元、作者社区时间主题模型ACTTM（Author-Community-Time-Topic-Model）模型训练单元、社区信息构建单元和节点属性值计算单元分别进行处理后，得到由作者层、论文层和两者之间的连接边组成的双层引用网络；其中ACTTM模型是在作者-主题AT（Author-Topic）模型、时间主题TOT（Topic-Over-Time）模型与社区主题模型CTM（CommunityTopic Model）相互结合基础上提出的一个新主题模型；

用户兴趣模型构建模块，负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息，以及从预处理模块得到的论文摘要的分词序列，由其两个组成部件：用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后，生成用户兴趣模型；

个性化学术推荐模块，负责读取用户兴趣模型构建模块构建用户的兴趣模型，得到每个用户的兴趣社区集合、用户权威值和用户多样值，再读取双层引用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值，并经由其两个组成部件：作者推荐列表生成单元和论文推荐列表生成单元的处理，生成作者推荐列表和论文推荐列表；

数据库，用于存储论文抓取模块抓取的所有论文的全部信息，包括：作为论文ID的链接地址、题目、摘要、发表时间和作者ID，所有用户对存储的该论文执行操作的全部行为记录，以及向用户最终推荐的作者推荐列表和论文推荐列表；每项操作的行为记录O_R=(user_id,paper_id,event_id,time)，其中，user_id为用户标识、paper_id为论文标识、event_id为操作内容，time为操作时间。

为了达到上述目的，本发明还提供了一种基于社区的作者及其学术论文的推荐系统的推荐方法，其特征在于：所述方法包括下列操作步骤：

（1）抓取论文：论文抓取模块利用网络爬虫在网络上抓取论文信息，包括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间，再使用该论文的链接地址作为该论文的唯一标识ID区分后，将抓取的该论文全部信息存储于数据库；

（2）预处理模块对论文摘要进行预处理：使用斯坦福词性标注器StanfordPOS Tagger（Stanford Log-Linear Part-Of-Speech Tagger）对论文摘要分别进行分词和标注词性的预处理操作，并保存词性标记为单数形式名词或物质名词NN（Noun，singular or mass）、复数形式名词NNS（Noun，plural）、单数形式专有名词NP（Proper noun，singular）、复数形式名词NPS（Proper noun，plural）的各种名词词语，再过滤并删除没有实际意义的停用词后，还要删除剩余词语数少于5的论文摘要；

（3）双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息，利用ACTTM模型训练生成作者-社区特征向量，利用LDA主题模型训练生成论文-主题特征向量，再计算作者和论文的各种属性值，成功构建双层引用网络；

（4）用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列，利用ACTTM模型预测得到用户-社区特征向量，通过计算得到用户的兴趣社区集合，并根据用户-社区特征向量计算用户各种属性值，最终成功构建用户兴趣模型；步骤（4）和步骤（3）为并行实施的；

（5）个性化学术推荐模块读取步骤（3）的双层引用网络和步骤（4）的用户兴趣模型，生成用户的作者推荐列表和论文推荐列表；再以该用户ID为唯一标识，将该作者推荐列表和论文推荐列表存入数据库。

本发明推荐系统与现有技术相比较所具有的优势在于：

本发明结合了AT模型和TOT模型的优点，并在该基础上再添加表示社区的变量，提出一个新的作者社区时间主题模型：ACTTM模型，用于对作者归属的社区信息进行建模，也就是通过作者的研究内容对作者划分其归属的社区。与基于引用关系的推荐方法相比，本发明能够在引用关系较少的情况下，使得社区划分的结果更加适合进行学术推荐，同时，在社区内部提取作者，与在整个作者集中推荐作者相比，显著降低了计算量。

本发明系统构建了一个双层引用网络，利用ACTTM模型对网络中的节点进行社区的划分，同时计算节点属性值时，考虑了作者研究内容之间的联系和引用关系。本发明系统在进行作者和论文推荐时，先计算用户的属性值，判断用户对作者或论文的不同需求，调整作者和论文各属性值之间的权重比例，使得根据该偏好值得出的推荐作者/论文列表更能符合用户的个性化需求。

与基于内容的推荐方法相比，本发明能够通过用户的历史操作记录判断其需求，向用户推荐能够拓宽其研究思路的作者和论文。

与协同过滤的推荐方法相比，本发明也可以向用户推荐与其研究方向极其吻合的作者和论文。而且，通过对用户的历史操作记录建模，只要用户有操作就可以为用户进行推荐，可以有效解决数据稀疏的问题。

附图说明

图1是AT模型结构的示意图。

图2是TOT模型结构的示意图。

图3是本发明基于社区的作者及其学术论文的推荐系统结构组成示意图。

图4是本发明推荐系统中双层引用网络的结构示意图。

图5是本发明推荐系统中ACTTM模型的结构示意图。

图6是本发明基于社区的作者及其学术论文的推荐系统推荐方法流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图3，介绍本发明基于社区的作者及其学术论文的推荐系统的结构组成：先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络，然后，根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型，最后根据得到的双层引用网络和用户兴趣模型，分析用户需求，向用户推荐作者及其论文；该系统设有六个部件：论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库。其中：

（一）论文抓取模块，负责采用网络爬虫抓取相关学科领域中每篇论文中包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息，将每篇论文使用该论文的链接地址用作唯一标识加以区分后，将抓取的论文全部信息都存储于数据库。

（二）预处理模块，负责从数据库中读取每篇论文的摘要，并由其分词、词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后，得到论文摘要的分词序列；其中分词单元依据空格、标点符号对论文摘要进行分词，词性标注单元对分词后的论文摘要标注词性，词性过滤单元依据标注的词性提取名词，停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词，以节省存储空间和提高搜索效率。

（三）双层引用网络构建模块，负责从数据库读取论文的作者ID、参考文献和发表时间的信息，从预处理模块读取论文摘要的分词序列，并由其四个组成构件：基础网络构建单元、作者社区时间主题模型ACTTM（Author-Community-Time-Topic-Model）模型训练单元、社区信息构建单元和节点属性值计算单元分别进行处理后，得到由作者层、论文层和两者之间的连接边组成的双层引用网络；其中ACTTM模型是在作者-主题AT（Author-Topic）模型、时间主题TOT（Topic-Over-Time）模型与社区主题模型CTM（CommunityTopic Model）相互结合基础上提出的一个新主题模型。

先对该双层引用网络构建模块中的四个组成单元的功能分别说明如下：

基础网络构建单元，负责读取存储于数据库的论文的参考文献和作者信息，提取论文间和作者间的引用关系，以及论文和作者间的著作关系，用于构建双层引用网络的基础网络，即由不具有属性值的作者节点集合V₁和论文节点集合V₂，以及表示两类节点之间关系的各种边E₁、E₂和E所构成，以供ACTTM模型训练单元、社区信息构建单元和节点属性计算单元在基础网络上添加社区信息和属性值信息，构建得到双层引用网络。

ACTTM模型训练单元，负责读取预处理模块的论文摘要的分词序列、存储于数据库的论文作者集合和论文发表时间信息，分别进行ACTTM模型训练和潜在狄利克雷分布LDA（Latent Dirichlet Allocation）主题模型训练，通过Gibbs采样按照ACTTM的生成模型进行ACCTM模型训练，按照LDA的生成模型进行LDA模型训练，最终生成：每位作者对应每个社区的作者-社区特征向量、即表示每位作者归属于每个社区的分布权值矩阵(w_i1,w_i2,...,w_ij,…,w_iC)，每篇论文对应每个主题的论文-主题特征向量、即每篇论文隶属于每个主题的分布权值矩阵(v_d1,v_d2,…,v_dt,...,v_dT)，每个社区对应每个主题的社区-主题特征向量、即每个社区归属于每个主题的分布权值矩阵，每个主题对应每个时间戳的主题-时间特征向量、即每个主题归属于每个时间戳的分布权值矩阵；以及每个主题对应每个单词的主题-单词特征向量，即每个主题归属于每个单词的分布权值矩阵；式中，自然数t为主题序号。

社区信息构建单元，负责从ACCTM模型训练单元读取作者-社区特征向量，并将作者在每个社区的分布权值w_ij与设定阈值进行比较，将大于设定阈值的社区作为作者的隶属社区，以获得双层引用网络中该作者隶属的社区列表

其中，自然数下标j_i为社区序号，下标的下标S_i为作者隶属的社区总数；完成所有作者的隶属社区列表的生成后，就得到每个社区所归属的作者列表。

节点属性值计算单元，负责从ACTTM模型训练单元得到作者-社区特征向量、论文-主题特征向量和从基础网络构建单元获得基础网络后，逐个计算每个节点的属性值：包括论文节点的权威值

多样值和流行值

以及作者节点的权威值

多样值

和流行值

先介绍本发明系统中的创新架构：双层引用网络，其数学表达式为：G={G₁,G₂,E}，其中：

由下标1表示的第一层子网络为作者层G₁={V₁,E₁}，其设有两个集合：作者集合V₁={a₁,a₂,...,a_i,...,a_I}和边集合E₁={(i,q,num_iq)}；V₁中的元素a_i为作者，自然数i为作者序号，共有I名作者；每位作者由下述五个参数描述之：

式中，ID_i为该作者标识ID；作者权威值向量

中自然数下标j为社区序号，常数C为j的最大值，即该双层引用网络中的社区总数；

和

分别为第i位作者在第j个社区的权威值、第i位作者的多样值和流行值，其中，权威值

表示第i位作者在第j个社区、即设定研究领域内的权威程度，多样值表示第i位作者研究内容的多样性，流行值

表示第i位作者受读者喜爱的程度，该三个字符中的上标字母a表示该权威值、多样值和流行值是分别利用作者权威值、作者多样值和作者流行值三种计算方法得到的；作者隶属的社区列表

表明：第i位作者共隶属于S_i个社区，S_i不大于双层引用网络中的社区总数C，其中，自然数下标j_i为第i位作者隶属的社区序号，j_i的最大值为S_i；边集合E₁中的元素(i,q,num_iq)表示从a_i指向a_q的有向边，表示在两个序号分别为自然数i和q的作者之间，作者a_i引用了作者a_q的论文，权值num_iq为引用次数。

由下标2表示的第二层子网络为论文层G₂={V₂,E₂}，其设有两个集合：论文集合V₂={p₁,p₂,...,p_d,...,p_D}和边集合E₂={(d,n)}，p_d中的自然数下标d为论文序号，共有D篇论文；每篇论文p_d由四个参数描述之，即

ID_d为该第d篇论文标识ID；和

分别为第d篇论文的权威值、多样值和流行值，其中，论文的权威值

表示该论文的权威程度，多样值

表示第d篇论文研究内容的多样性，论文的流行值

表示第d篇论文受读者的喜爱程度，该三个字符中的上标字母p表示该权威值、多样值和流行值是分别采用论文权威值、多样值和流行值计算方法得到的；边集合E₂中的元素(d,n)表明两位序号分别为不同自然数d,n的两篇论文之间存在从p_d指向p_n的有向边(d,n)，表示论文p_d引用了论文p_n，该边的权值为1。

作者层和论文层之间的连接边E={(a_i,p_d)}表示作者a_i发表了论文p_d,则在a_i和p_d之间存在有向边(i,d)。

参见图4，介绍一个双层引用网络的具体示例：在作者层有作者节点a₁、a₂、a₃，在论文层有论文节点p₁、p₂、p₃、p₄、p₅、p₆。作者a₂撰写了论文p₁、p₂、p₃和p₅，则在作者节点a₂和论文节点p₁、p₂、p₃和p₅间分别存在一条有向边；作者a₁撰写了论文p₁、p₄，则在作者节点a₁和论文节点p₁、p₄间分别存在一条有向边；作者a₃撰写了论文p₆，则在作者节点a₃和论文节点p₆间存在一条有向边；论文p₂引用了论文p₁、p₃和p₄，则存在由论文节点p₂分别指向论文节点p₁、p₃、p₄的有向边，边的权重为1。作者a₂的论文引用了作者a₁的两篇论文，则存在由作者节点a₂指向作者节点a₁的有向边；对于作者节点a₁，其隶属社区有c₁。对于作者节点a₂，其隶属社区有c₁和c₂;对于作者节点a₃，其隶属社区有c₃.c₂社区中包括了3名作者，分别是a₂、a₃。c₁和c₃社区中分别包括了a₁和a₃。

参见图5，介绍ACTTM模型训练单元生成ACCTM模型的操作步骤：

（1）设置论文层中的某篇论文p_d以及其位于作者层中的作者集合s_d；

（2）选取作者集合s_d中某个作者x，先计算获得该作者x的作者-社区特征向量χ，该作者-社区特征向量χ是以参数为给定正数λ的狄利克雷分布函数，再从参数为χ的多项分布函数中随机采样得到一个社区l；

（3）计算获得社区l的社区-主题特征向量Θ，该社区-主题特征向量Θ是参数为给定正数α的狄利克雷分布函数，再从参数为Θ的多项分布函数中随机采样得到一个序号为t的主题，自然数序号t的最大值为T；

（4）计算获得主题t的主题-单词特征向量Φ，该主题-单词特征向量Φ是参数为给定正数β的狄利克雷分布函数，再从参数为Φ的多项分布函数中随机采样得到一个单词h，且h归属于第d篇论文摘要中的单词集合H_d；

（5）计算获得主题t的主题-时间特征向量ψ，该主题-时间特征向量ψ为二项分布函数，再从参数为ψ的Beta分布函数中随机采样得到一个时间戳、即论文发表时间z。

（四）用户兴趣模型构建模块，负责读取数据库中的用户操作记录和论文的作者集合和发表时间信息，以及从预处理模块得到的论文摘要的分词序列，由其两个组成部件：用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应处理后，生成用户兴趣模型。其中的两个组成单元的功能介绍如下：

用户兴趣社区集合构建单元，负责根据从数据库读取用户操作记录和论文的发表时间及其作者信息、以及从预处理模块得到的论文摘要的分词序列，通过ACTTM模型预测，得到用户对应每个社区的用户-社区特征向量，即每位用户喜好每个社区的分布权值矩阵和该用户在每个社区的分布权值；再将该用户在每个社区的分布权值与设定阈值进行比较，将大于阈值的社区作为用户的兴趣社区，从而得到用户的兴趣社区集合。

用户属性值计算单元，负责从用户兴趣社区集合构建单元获取用户-社区特征向量后，分别计算每个用户的权威值

和多样值

以便与其兴趣社区集合中的兴趣社区一起组成该用户的兴趣模型，其数学表达式为

其中，自然数m为用户序号，ID_m为用户ID，用户在C个社区的权威值向量

表示该用户在社区、即某个研究领域内的权威性程度：若用户阅读某个领域的大量论文，则该用户在该领域的权威值较大；权威值向量

中的元素

为第m位用户在第j个社区的权威值；用户的多样值

表示该第m位用户阅读的文献多样性程度，即用户涉猎的研究领域多样性，上述字符中的上标u表示该权威值和多样值是分别采用用户权威值和用户多样值的计算方法得到的；用户的兴趣社区集合

为该用户隶属的社区列表，下标的下标N_m表示该列表中的社区总个数。

（五）个性化学术推荐模块，负责读取用户兴趣模型构建模块构建用户的兴趣模型，得到每个用户的兴趣社区集合、用户权威值和用户多样值，再读取双层引用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值，并经由其两个组成部件：作者推荐列表生成单元和论文推荐列表生成单元的处理，生成作者推荐列表和论文推荐列表。其中两个组成单元的功能介绍如下：

作者推荐列表生成单元，用于从用户兴趣模型构建模块读取每个用户的兴趣社区集合、用户权威值和用户多样值，再从双层引用网络构建模块读取社区作者列表、作者的属性值，通过计算生成作者推荐列表；

论文推荐列表生成单元，用于分别从作者推荐列表生成单元和双层引用网络构建模块读取生成的作者推荐列表、作者和论文间的著作关系和论文的属性值，通过计算生成论文推荐列表；再以用户ID为唯一标识将作者推荐列表和论文推荐列表存入数据库中。

（六）数据库，用于存储论文抓取模块抓取的所有论文的全部信息，包括：作为论文ID的链接地址、题目、摘要、发表时间和作者ID，所有用户对存储的该论文执行操作的全部行为记录，以及向用户最终推荐的作者推荐列表和论文推荐列表；每项操作的行为记录O_R=(user_id,paper_id,event_id,time)，其中，user_id为用户标识、paper_id为论文标识、event_id为操作内容，time为操作时间。

参见图6，介绍本发明基于社区的作者及其学术论文的推荐系统的推荐方法的下述各个操作步骤：

步骤1，抓取论文：论文抓取模块利用网络爬虫在网络上抓取论文信息，包括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间，再使用该论文的链接地址作为该论文的唯一标识ID区分后，将抓取的该论文全部信息存储于数据库。

步骤2，预处理模块对论文摘要进行预处理：使用斯坦福词性标注器StanfordPOS Tagger（Stanford Log-Linear Part-Of-Speech Tagger）对论文摘要分别进行分词和标注词性的预处理操作，并保存词性标记为单数形式名词或物质名词NN（Noun，singular or mass）、复数形式名词NNS（Noun，plural）、单数形式专有名词NP（Proper noun，singular）、复数形式名词NPS（Proper noun，plural）的各种名词词语，再过滤并删除没有实际意义的停用词后，还要删除剩余词语数少于5的论文摘要。

步骤3，双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息，利用ACTTM模型训练生成作者-社区特征向量，利用LDA主题模型训练生成论文-主题特征向量，再计算作者和论文的各种属性值，成功构建双层引用网络。

该步骤中，双层引用网络构建模块执行下述各项操作内容：

（31）从数据库读取论文的参考文献和作者信息，根据该论文参考文献提取作者间与论文间的引用关系，再结合作者和论文间的著作关系构建基础网络；

（32）从预处理模块读取论文摘要的分词序列、从数据库读取论文的作者集合及其发表时间，按照设定的社区个数和主题个数，使用ACTTM主题模型对论文摘要的分词序列进行主题模型训练，得到作者-社区特征向量(w_i1,w_i2,...,w_ij,...,w_iC)，再使用LDA主题模型对论文摘要的分词序列进行主题模型训练，得到论文-主题特征向量(v_d1,v_d2,...,v_dt,...,v_dT)，且

和

式中，w_ij是第i位作者在第j个社区的分布权值，v_dk是第d篇论文在第t个主题的分布权值，自然数下标j和t分别是社区序号和主题序号，两者最大值分别为C和T；

（33）根据作者-社区特征向量，将大于设定阈值的社区作为该作者的隶属社区，从而得到作者的隶属社区列表和每个社区内的作者列表；

（34）根据论文间引用关系、论文的主题特征向量和用户历史操作记录，分别执行下述操作，计算得到论文的权威值、多样值和流行值；

计算论文权威值

先从基础网络构建单元读取基础网络，根据公式

计算第d篇论文在网络拓扑中的点度入度中心度，所述点度入度中心度是复杂网络分析技术领域中，表示网络中指向该节点的边的数量，在双层引用网络表示该论文被引用的情况；其中，自然数d为论文序号，其最大值为D；为论文节点p_d的点度入度中心度，degree(d)为指向论文节点p_d的边的总数，再根据公式

计算该论文的权威值；

计算论文多样值

从ACTTM模型训练单元读取论文-主题特征向量，先利用公式

计算第d篇论文的研究内容覆盖的主题总数，即第d篇论文的论文-主题特征向量中分布权值大于设定阈值

的权值总数；再计算第d篇论文对应的论文-主题特征向量中各个分布权值的方差

和

最后根据公式

计算该论文的多样值，式中，

为各个分布权值的平均值，δ,ε分别为协调和

的权重系数；

计算论文流行值

从数据库读取用户的历史操作行为记录，通过下述公式计算论文的流行值：

其中sum{}计算符合条件的操作记录条数，o_d为用户对第d篇论文的操作记录；

（35）根据作者间的引用关系、作者-社区特征向量和步骤（34）得到的论文的权威值、多样值和流行值，分别执行下述操作计算作者的权威值、多样值和流行值，最终得到双层引用网络；

计算作者权威值

分别从基础网络构建单元和ACTTM模型训练单元读取基础网络和作者-社区特征向量后，先从作者-社区特征向量中提取第i个作者在第j个社区下的分布权值w_ij，再根据公式

计算第i位作者在网络中表示该作者论文被引用情况的点度入度中心度，其中，下标q为第q位作者，

为作者节点a_i的点度入度中心度，num_qi为作者节点a_q指向作者节点a_i的边的权重，degree(i)为指向作者节点a_i的边的集合；最后根据公式

计算第i位作者在第j个社区的权威值；顺序执行上述步骤计算

即对社区序号j从1到C都执行上述操作步骤，最终得到第i位作者的权威值

计算作者多样值

从ACTTM模型训练单元读取作者-社区特征向量，先得到第i位作者隶属社区列表中社区总个数再计算第i位作者对应的作者-社区特征向量中各个分布权值的方差

各个分布权值的平均值最后根据公式

计算得到第i位作者的多样值，其中，δ,ε为协调

和

的权重系数；

计算作者流行值

从数据库读取用户历史行为操作记录，根据公式

计算作者的流行值，其中，PS_i为第i位作者所著的论文集合，d为第i位作者著作的一篇论文，为步骤（3）得到的第d篇论文的流行值。

步骤4，用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列，利用ACTTM模型预测得到用户-社区特征向量，通过计算得到用户的兴趣社区集合，并根据用户-社区特征向量计算用户各种属性值，最终成功构建用户兴趣模型；步骤4和步骤3为并行实施的；

该步骤中，用户兴趣模型构建模块执行的操作包括下列内容：

（41）从数据库中读取用户的历史操作记录，将其操作过的论文作为该用户的论文集，再对该论文集中的论文摘要序列、论文作者集合和论文发表时间进行ACTTM模型的预测，得到用户-社区特征向量(y_m1,y_m2,...,y_mj,…,y_mC)，且

式中，y_mj是第m位用户在第j个社区的分布权值，自然数下标j是社区序号，其最大值为C；

（42）将分布权值大于设定阈值的社区作为该用户的兴趣社区，得到该用户的兴趣社区列表；

（43）根据用户的用户-社区特征向量，执行下述操作计算该用户的权威值和多样值，以便最终得到用户的兴趣社区模型；

计算用户权威值

利用y_mj和通过公式

分别计算每个用户在每个社区的权威值，最终得到该用户的权威值

计算用户多样值

先计算每个用户的兴趣社区列表中的社区个数

再计算每个用户对应的用户-社区特征向量中各个分布权值的方差

{cV}_{m}^{u} = Σ_{v = 1}^{C} {(y_{mv} - \overset{&OverBar;}{y_{m}})}^{2},

各个分布权值的平均值

\overset{&OverBar;}{y_{m}} = \frac{y_{m 1} + y_{m 2} + . . . + y_{mC}}{C};

最后通过公式

计算得到每个用户的多样值；其中，上标u代表用户，δ,ε分别为协调

和

的权重系数。

步骤5，个性化学术推荐模块读取步骤3的双层引用网络和步骤4的用户兴趣模型，生成用户的作者推荐列表和论文推荐列表；再以该用户ID为唯一标识，将该作者推荐列表和论文推荐列表存入数据库。

该步骤中，个性化学术推荐模块执行的操作包括下列内容：

（51）执行下列操作内容，生成初始作者推荐列表：

（511）读取步骤（4）生成的用户兴趣模型，得到用户的兴趣社区列表用户的权威值和多样值；再对兴趣社区列表中的每个社区

分别按照步骤（512）～（515）顺序执行相应处理，以便完成全部用户的每个兴趣社区处理后，执行步骤（516）；

（512）从双层引用网络构建模块中读取第j_m个社区的作者列表；

（513）通过用户的权威值分别计算第m位用户对第j_m个社区中作者和论文的三个属性值的权重系数

和

α_{j_{m}} &Proportional; \frac{1}{A_{j_{m}}^{u}}, β_{j_{m}} = 1 - α_{j_{m}} - γ_{j_{m}}, γ_{j_{m}} &Proportional; M_{m}^{u};

其中，

为第m位用户在第j_m个社区上的权威值，为第m位用户的多样值；

（514）通过公式

计算第m位用户对社区

内作者的偏好值，i为社区

内的第i位作者，

和

为步骤（513）得到的权重参数；

为第i位作者在社区

上的权威值，

和

分别为第i位作者的多样值和流行值；

（515）按照

的数值大小对社区内作者进行降序排列，根据目标用户的权威值取

名作者，存入初始作者推荐列表，其中topN为设定数值；

（516）完成全部兴趣社区的计算后，删除初始作者推荐列表中重复的作者，形成最终的作者推荐列表；

（52）读取步骤（51）中的作者推荐列表，执行下述步骤操作，生成论文推荐列表：

（521）读取步骤（516）生成的作者推荐列表，对作者推荐列表中的每位作者依次进行步骤（522）～（524）的操作，完成计算后，再执行步骤（525）；

（522）从双层引用网络构建模块中读取第i位作者所著的论文ID、论文的权威值、多样值和流行值；

（523）根据第m位用户对第j_m个社区的作者和论文的三个属性值的权重系数

和公式

F_{i_{m} d} = α_{j_{m}} A_{d}^{p} + β_{j_{m}} M_{d}^{p} + γ_{j_{m}} P_{d}^{p},

依次计算用户对作者所著论文的偏好值；其中，

和

分别为第d篇论文的权威值、多样值和流行值；

（524）按照

的数值大小对作者所著论文进行降序排列，再根据目标用户的权威值选取篇文章，存入初始论文推荐列表；

（525）完成全部推荐作者的论文的计算操作后，删除初始论文推荐列表中重复的论文，形成最终的论文推荐列表；

（53）以用户ID为唯一标标识将作者推荐列表和论文推荐列表存于数据库。

Claims

1.一种基于社区的作者及其学术论文的推荐系统，其特征在于，该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络，然后，根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型，最后根据得到的双层引用网络和用户兴趣模型，分析用户需求，向用户推荐作者及其论文；该系统设有：论文抓取模块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据库；其中：

双层引用网络构建模块，负责从数据库读取论文的作者ID、参考文献和发表时间的信息，从预处理模块读取论文摘要的分词序列，并由其四个组成构件：基础网络构建单元、作者社区时间主题模型ACTTM模型训练单元、社区信息构建单元和节点属性值计算单元分别处理后，得到由作者层、论文层和两者之间的连接边组成的双层引用网络；其中ACTTM模型是在作者-主题AT模型、时间主题TOT模型与社区主题模型CTM相互结合基础上提出的一个新主题模型；

个性化学术推荐模块，负责读取用户兴趣模型构建模块构建的用户兴趣模型，得到每个用户的兴趣社区集合、用户权威值和用户多样值，再读取双层引用网络构建模块得到的社区作者列表、作者和论文间的著作关系、作者的属性值和论文的属性值，并经由其两个组成部件：作者推荐列表生成单元和论文推荐列表生成单元的处理，生成作者推荐列表和论文推荐列表；

2.根据权利要求1所述的推荐系统，其特征在于：所述双层引用网络的数学表达式为：G={G₁,G₂,E}，其中：

由下标1表示的第一层子网络为作者层G₁={V₁,E₁}，其设有两个集合：作者集合V₁={a₁,a₂,...,a_i,...,a_I}和边集合E₁={(i,q,num_iq)}；V₁中的元素a_i为作者，自然数下标i为作者序号，共有I名作者；每位作者由下述五个参数描述之：

式中，ID_i为作者标识ID；作者权威值向量

和

表明：第i位作者共隶属于S_i个社区，S_i不大于双层引用网络中的社区总数C，其中，自然数下标j_i为第i位作者隶属的社区序号，j_i的最大值为S_i；边集合E₁中的元素(i,q,num_iq)表示从a_i指向a_q的有向边，表示在两个序号分别为自然数i和q的作者之间，作者a_i引用了作者a_q的论文，权值num_iq为引用次数；

ID_d为第d篇论文标识ID；

和

表示第d篇论文的权威程度，多样值

表示第d篇论文研究内容的多样性，论文的流行值表示第d篇论文受读者的喜爱程度，该三个字符中的上标字母p表示该权威值、多样值和流行值是分别采用论文权威值、多样值和流行值计算方法得到的；边集合E₂中的元素(d,n)表明两位序号分别为不同自然数d,n的两篇论文之间存在从p_d指向p_n的有向边(d,n)，表示论文p_d引用了论文p_n，该边的权值为1；

3.根据权利要求1所述的推荐系统，其特征在于：所述ACTTM模型训练单元生成ACCTM模型的过程包括如下步骤：

4.根据权利要求1所述的推荐系统，其特征在于：所述双层引用网络构建模块中的四个组成单元的功能如下：

基础网络构建单元，负责读取存储于数据库的论文的参考文献和作者信息，提取论文间和作者间的引用关系，以及论文和作者间的著作关系，用于构建双层引用网络的基础网络，即由不具有属性值的作者节点集合V₁和论文节点集合V₂，以及表示两类节点之间关系的各种边E₁、E₂和E所构成，以供ACTTM模型训练单元、社区信息构建单元和节点属性计算单元在基础网络上添加社区信息和属性值信息，构建得到双层引用网络；

ACTTM模型训练单元，负责读取预处理模块的论文摘要的分词序列、存储于数据库的论文作者集合和论文发表时间信息，分别进行ACTTM模型训练和潜在狄利克雷分布LDA（Latent Dirichlet Allocation）主题模型训练，通过Gibbs采样按照ACTTM的生成模型进行ACCTM模型训练，按照LDA的生成模型进行LDA模型训练，最终生成：每位作者对应每个社区的作者-社区特征向量、即表示每位作者归属于每个社区的分布权值矩阵(w_i1,w_i2,...,w_ij,…,w_iC)，每篇论文对应每个主题的论文-主题特征向量、即每篇论文隶属于每个主题的分布权值矩阵(v_d1,v_d2,…,v_dt,...,v_dT)，每个社区对应每个主题的社区-主题特征向量、即每个社区归属于每个主题的分布权值矩阵，每个主题对应每个时间戳的主题-时间特征向量、即每个主题归属于每个时间戳的分布权值矩阵；以及每个主题对应每个单词的主题-单词特征向量，即每个主题归属于每个单词的分布权值矩阵；式中，自然数t为主题序号；

其中，自然数下标j_i为社区序号，下标的下标S_i为作者隶属的社区总数；完成所有作者的隶属社区列表的生成后，就得到每个社区所归属的作者列表；

多样值

和流行值以及作者节点的权威值

多样值

和流行值

5.根据权利要求1所述的推荐系统，其特征在于：所述用户兴趣模型构建模块的两个组成单元的功能如下：

用户兴趣社区集合构建单元，负责根据从数据库读取用户操作记录和论文的发表时间及其作者信息、以及从预处理模块得到的论文摘要的分词序列，通过ACTTM模型预测，得到用户对应每个社区的用户-社区特征向量，即每位用户喜好每个社区的分布权值矩阵和该用户在每个社区的分布权值；再将该用户在每个社区的分布权值与设定阈值进行比较，将大于阈值的社区作为用户的兴趣社区，从而得到用户的兴趣社区集合；

和多样值

其中，自然数m为用户序号，ID_m为第m位用户的ID，用户在C个社区的权威值向量

中的元素

为第m位用户在第j个社区的权威值；用户的多样值

表示第m位用户阅读的文献多样性程度，即用户涉猎的研究领域多样性，上述字符中的上标u表示该权威值和多样值是分别采用用户权威值和用户多样值的计算方法得到的；用户的兴趣社区集合

6.根据权利要求1所述的推荐系统，其特征在于：所述个性化学术推荐模块中的两个组成单元的功能如下：

7.一种基于社区的作者及其学术论文的推荐系统的推荐方法，其特征在于：所述方法包括下列操作步骤：

（4）用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论文摘要的分词序列，利用ACTTM模型预测得到用户-社区特征向量，通过计算得到用户的兴趣社区集合，并根据用户-社区特征向量计算用户各种属性值，最终成功构建用户兴趣模型；该步骤（4）和上述步骤（3）为同时并行实施的；

8.根据权利要求7所述的方法，其特征在于：所述步骤（3）中，双层引用网络构建模块执行下述各项操作内容：

（32）从预处理模块读取论文摘要的分词序列、从数据库读取论文的作者集合及其发表时间，按照设定的社区个数和主题个数，使用ACTTM主题模型对论文摘要的分词序列进行主题模型训练，得到作者-社区特征向量(w_i1,w_i2,...,w_ij,...,w_iC)，再使用LDA主题模型对论文摘要的分词序列进行主题模型训练，得到论文-主题特征向量(v_d1,v_d2,...,v_dt,...,v_dT)，且和