CN103425799B

CN103425799B - 基于主题的个性化研究方向推荐系统和推荐方法

Info

Publication number: CN103425799B
Application number: CN201310396246.0A
Authority: CN
Inventors: 卢美莲; 高洁; 王萌星; 秦臻; 刘智超
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2016-06-15
Anticipated expiration: 2033-09-04
Also published as: CN103425799A

Abstract

一种基于主题的个性化研究方向推荐系统和推荐方法，该推荐系统能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题，获悉用户所阅读的论文主题以及其对相关论文主题的偏好，从而为用户推荐新的研究方向，以拓宽用户视野。其创新关键是利用用户与论文、论文与主题三者关系构建三层图模型，并依据三层图模型计算用户对主题的偏好值，再得到用户-主题偏好权值矩阵；在权值矩阵基础上，计算用户与其他用户间的相似用户集合。并通过该集合中相似用户的相似度值，以及这些相似用户对各个主题的偏好值，预测该用户对其未涉及主题的偏好程度，并根据预测结果为该用户推荐研究方向（即研究主题）。

Description

基于主题的个性化研究方向推荐系统和推荐方法

技术领域

本发明涉及一种个性化研究方向推荐系统和推荐方法，确切的说，涉及一种针对用户行为进行基于主题的个性化研究方向推荐系统和推荐方法，属于数据挖掘和机器学习的技术领域。

背景技术

目前，随着互联网的快速发展，人们正处于一个信息爆炸的时代。面对现阶段的海量信息，如何实现信息的筛选和过滤成为衡量一个网络系统性能好坏的重要指标。每个具有良好用户体验的网络系统，都会对海量信息进行筛选与过滤，将用户最关注、最感兴趣的信息展现在用户面前。这样既大大增加了网络系统的工作效率和效果，也显著节省了用户自己筛选信息的时间。

搜索引擎的出现，在一定程度上解决了信息筛选问题，但是还远远不够。因为搜索引擎需要用户主动提供关键词，以此作为其对海量信息进行筛选的依据。当用户无法准确描述自己的需求时，搜索引擎的筛选效果就将大打折扣。然而，用户将自己的需求和意图转化成关键词的过程，其本身就是一个并不轻松的处理操作过程。故在此背景下，人们研制了推荐系统：其任务就是解决上述将用户和信息进行关联的问题：一方面帮助用户发现对自己有价值的信息，另一方面让信息能展现在对其感兴趣的人群中，从而实现信息提供商与用户的双赢。

在学术领域，每年发表有大量的论文、专利和会议集，根据中国科学技术信息研究所2011年底发布的统计数据，2010年美国发表SCI论文39.01万篇，排在世界第一位，中国发表SCI论文14.84万篇(含港澳地区)，排在第二位。面对数量如此之多的学术论文，用户需要花费大量的时间才能找到自己所需要的信息。这种浏览大量无关信息的过程，无疑会使淹没在信息过载问题中的大量用户不断流失。在这种背景下，个性化学术推荐系统应运而生。个性化学术推荐系统是一个依据用户的行为等信息挖掘用户感兴趣的资源，并推荐给用户的网络系统。该系统采用用户与学术网站进行交互，学术网站通过分析用户的行为等信息，挖掘出用户感兴趣的学术资源，并自动推荐给用户，实现学术网站与用户的双赢。目前，应用较多的个性化学术推荐方法包括：

第一种是协同过滤的学术资源推荐算法，它又包含下述两种方法：

一是基于用户的协同过滤方法：其基本思想相当简单，基于用户对学术资源的偏好寻找其相似的邻居用户，然后将邻居用户喜欢的内容推荐给当前用户。其操作步骤为：

步骤1、先将一个用户对所有学术资源的偏好作为一个向量，用于计算用户之间的相似度，找到K邻居；

步骤2、根据邻居的相似度权重及其对学术资源的偏好，预测当前用户没有偏好或未涉及的学术资源，计算得到一个排序的学术资源列表作为推荐。

二是基于项目的协同过滤方法：其工作原理和基于用户的协同过滤方法类似，只是在计算其邻居时，采用学术资源本身，而不是从用户的角度，即基于用户对学术资源的偏好找到相似的学术资源，然后根据用户的历史偏好，向其推荐相似的学术资源。其操作步骤为：

步骤1，先将所有用户对某个学术资源的偏好作为一个向量，计算各个学术资源之间的相似度，得到每个学术资源的相似学术资源；

步骤2，根据用户的历史偏好，预测当前用户还没有表示偏好的学术资源，计算得到一个排序的学术资源列表作为推荐。

协同过滤的优点是：能够过滤难以进行内容分析的信息，如艺术品，音乐等。可以共享其他人的经验，还避免了内容分析的不完全和不精确，并且能够基于一些复杂的、难以描述的抽象概念(如信息质量、个人品味)进行过滤。具有推荐新信息的功能，可以发现内容上完全不相似的信息，且用户对推荐的内容也是其事先所没有预料到的。

虽然协同过滤作为一种典型的推荐技术有着很好的应用，但是，其也仍然存在许多问题有待解决。最典型的是：稀疏问题(Sparsity)和可扩展问题(Scalability)。

第二种是基于内容的学术用户推荐算法，其核心思想是根据学术资源内容的元数据，发现学术资源内容的相关性，然后基于用户以往的喜好记录，向用户推荐相似的学术资源。其操作步骤为：

步骤1、根据学术资源的内容，并结合用户的行为数据对用户进行建模；

步骤2、通过计算学术资源与目标用户之间的相似度，将相似度排名较高的学术资源推荐给目标用户。

基于内容的推荐方法能够很好地对用户的喜好进行建模，以便提供更精准的推荐。同时，由于推荐是根据学术资源的内容进行计算的，因此，不存在数据稀疏和冷启动问题，并且具有很好的可解释性。

综上所述，现在的学术推荐系统与推荐方法依然存在下述两个主要问题：

数据稀疏问题：现在的学术资源推荐系统规模越来越大，因论文数量动辄以数百、千、万计，两个用户之间选择的重叠论文数量非常少。导致用户-论文的评分矩阵数据非常稀疏，使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。而且，这个问题的本质是无法完全克服的。为了解决这个问题，人们设想了许多办法。譬如，可以通过扩散的算法，从原来的一阶关联(两个用户有多少相似评分或共同浏览的论文)到二阶、甚至更高阶的关联(假设关联性或相似性的本身是可以传播的)，也可以添加一些缺省的打分，从而提高相似性的分辨率。因为数据的规模越大，通常其分布就越加稀疏，现在能够处理稀疏数据的算法被认为是更有前途的。

推荐信息量较少的问题：现有的学术论文推荐系统通常是依据用户有操作行为记录的论文内容，再计算待推荐的论文与用户浏览过的论文的相似度，并依据该相似度数值的高低顺序对其进行推荐。这样的推荐列表中的论文，大部分是与用户浏览过的论文很相似。从用户角度而言，这样的推荐系统确实比较准确，但是，这样很可能导致用户得到一些信息量为0的“精准推荐”，并且，使得用户视野变得越来越狭窄。这样的学术论文推荐系统没有任何实际应用价值的。

发明内容

有鉴于此，本发明的目的是提供一种基于主题的个性化研究方向推荐系统和推荐方法，本发明充分利用用户与论文、以及论文与主题三者之间的关系，构建出三层图模型，并依据该三层图模型计算用户对主题的偏好值，进而得到用户-主题偏好权值矩阵；再在该权值矩阵基础上，计算用户与其他用户之间的相似用户集合。然后，再通过该集合中用户的相似度值，以及这些用户对各个主题的偏好值，预测该用户对其未涉及主题的偏好程度，并根据预测结果为该用户推荐研究方向(该研究方向也就是研究主题)。

为了达到上述目的，本发明提供了一种基于主题的个性化研究方向推荐系统，其特征在于：所述推荐系统能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题，获悉用户所阅读的论文主题以及其对相关论文主题的偏好，从而为用户推荐新的研究方向，以拓宽用户视野；该推荐系统设有：论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好权值矩阵计算模块、研究方向推荐模块和数据库；其中：

论文抓取模块，负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息：包括标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间，并将每篇论文使用该论文的链接地址用作其标识加以区分后，将抓取的论文全部信息都存储于数据库；

文本预处理模块，负责从数据库中读取每篇论文摘要，并由其分词、词性标注与过滤三个单元依序分别对其进行下述处理：分词单元依据空格、标点符号对论文摘要进行分词；词性标注单元对分词后的论文摘要进行词性标注后，过滤单元提取其中的名词词语，并过滤和删除其中对该论文没有实际意义的停用词，就得到该论文摘要的分词序列，以便提高后续训练和搜索的效率；

主题模型训练模块，负责读取文本预处理模块处理后的论文摘要分词序列，并将其作为论文文本执行下述主题模型训练：根据设定的主题个数，利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合，以使每篇论文文本都具有其对应每个主题的特征向量，并以每篇论文文本的唯一标识进行区分；

三层图模型构建模块，负责根据从数据库中获取用户全部操作行为记录，以及源自主题模型训练模块的训练结果：每篇论文归属于每个主题的主题特征向量，构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型；其中，用户层指向论文层的每条有向边表示用户u_i对论文p_j有包括阅读、收藏、分享、下载和评分的操作行为，而论文层指向主题层的每条有向边则表示论文p_j归属于主题t_k；再根据三层图模型中对应边的两种权值计算公式计算各层之间的边的权值；该模块设有：论文偏好值计算单元和三层图模型构建单元；其中的论文偏好值计算单元用于依据用户操作行为记录计算每个用户对其操作过的论文集合中各篇论文的偏好值；三层图模型构建单元用于依据用户对论文的偏好值以及所有论文的主题特征向量构建三层图模型；

用户-主题偏好权值矩阵计算模块，负责依据三层图模型和下述公式计算用户u_i对所有论文所涉及的某个主题t_k的偏好值：式中，A_ij为用户u_i对论文p_j的偏好值，T_jk为论文p_j属于主题t_k的权值；自然数i、j和k分别为用户、论文和主题的序号，且其最大值分别为：I、J和K；

研究方向推荐模块，设有顺序连接的相似度计算、主题偏好值计算和研究方向排序三个单元，其中相似度计算单元负责以用户u_i对所有论文所涉及的各个主题t_k的偏好值作为向量，计算用户u_i与其他用户之间的相似度，再根据相似度数值大小对其他用户进行递减排序，并选择位于前列的多个用户作为用户u_i的相似用户集合；主题偏好值计算单元依据相似用户集合中的用户相似度值和该集合中的用户u_s对所有论文所涉及的各个主题t_k的偏好值计算用户u_i对其未涉及主题的偏好值；研究方向排序单元再依据用户u_i对其未涉及主题的偏好值大小对各个主题进行递减排序，形成初始研究方向推荐列表；再从初始研究方向推荐列表中选择位于前列的若干个研究方向作为用户u_i的研究方向推荐列表，并存储于数据库中；

数据库，用于存储论文抓取模块抓取的所有论文的全部信息，以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录，每项操作行为记录包括：用户标识、论文标识、具体操作行为和起止时间。

为了达到上述目的，本发明还提供了一种基于主题的个性化研究方向推荐系统的推荐方法，其特征在于，包括下述七个操作步骤：

(1)抓取论文：论文抓取模块使用网络爬虫在网络上抓取相关学科技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息，并使用该论文的链接地址作为其标识区分后；将抓取的该论文全部信息存储于数据库；

(2)对论文摘要进行预处理：使用斯坦福词性标注器StanfordPOSTagger(StanfordLog-LinearPart-Of-SpeechTagger)对论文摘要进行分词、词性标注的预处理操作，并保存词性标记为单数形式名词或物质名词NN(Noun,singularormass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Propernoun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词词语，再过滤并删除没有实际意义的停用词后，同时删除论文摘要分词序列中剩余词语数少于5的论文；

(3)对论文摘要分词序列进行主题模型训练：按照设定的主题个数，使用潜在狄利克雷分布LDA(LatentDirichletAllocation)主题模型对论文摘要分词序列进行主题模型训练，得到该论文的主题特征向量：TS_j＝(T_j1,T_j2,...,T_jk,...,T_jK)，且式中，T_jk是第j篇论文在第k个主题下的权值，自然数下标k为是主题序号，其最大值为K；

(4)构建三层图模型：先从数据库中读取所有用户的全部操作行为记录，并从每个用户对论文的所有操作行为记录中，获取该用户有过操作行为的论文标识，并根据下述公式和用户u_i对某篇论文p_j的操作行为，计算该用户u_i对某篇论文p_j的偏好值：再读取主题模型训练模块的训练结果：每篇论文归属于每个主题的主题特征向量，并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值；若是，则认为该论文属于对应主题；否则，认为该论文不属于对应主题；

(5)计算用户-主题偏好权值矩阵：依据三层图模型中每个用户对各篇论文的偏好值，以及每篇对应论文属于相应主题的权值，即依据公式计算每个用户u_i对所有论文所涉及的每个主题t_k的偏好值；

(6)预测用户u_i对其未涉及主题的偏好值：将步骤(5)中得到的用户u_i对所有论文所涉及的每个主题t_k的偏好值矩阵、也就是用户u_i的主题特征向量作为向量，其中，表示用户u_i对第k个主题t_k的偏好值，K为主题的总个数；

接着，依据余弦相似度计算公式

s i m (u_{i}, u_{s}) = \cos ({vu}_{i}, {vu}_{s}) = \frac{Σ_{k = 1}^{K} {vu}_{i k} \times {vu}_{s k}}{\sqrt{Σ_{k = 1}^{K} {({vu}_{i k})}^{2}} \times \sqrt{Σ_{k = 1}^{K} {({vu}_{s k})}^{2}}}

计算用户u_i与其他用户之间的相似度；式中，vu_i和vu_s分别为两个不同用户、即第i个和第s个用户u_i和u_s的主题特征向量，K为主题总个数，vu_ik为用户u_i对第k个主题的偏好值；再依据用户u_i与其他用户之间相似度值大小，对其他用户进行递减排序，选出位于前列的Q个用户作为用户u_i的相似用户集合，Q为自然数；

然后，依据上述集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式：预测用户u_i对其未涉及主题的偏好；其中，和分别为两个用户u_i和u_s对第k个主题的两个偏好值，和分别为用户u_i和u_s对其所涉及的论文所归属的所有主题偏好值的平均值，v(i,Q)为用户u_i位于前列的Q个相似用户组成的集合；

(7)形成研究方向推荐列表：依据步骤(6)预测的用户对其未涉及主题的偏好值，对其未涉及的主题进行排序，选择出位于前列的多个主题作为该用户的研究方向推荐列表，并存储于数据库中，从而实现研究方向的推荐。

由于至今尚未发现有比较理想的为用户推荐学术研究方向的推荐系统，因此，本发明基于主题的个性化研究方向推荐系统是首创的、为用户推荐新的研究主题或学术研究方向的推荐系统，其创新特点和技术是：

本发明推荐系统是基于主题推荐新的研究方向，也就是根据用户在该推荐系统上有过浏览、下载、分享等操作行为的相关论文，计算该用户所关心的学术主题。然后依据用户对各个主题的偏好值，计算该用户的相似用户集合。再基于该集合中用户的相似度值和其余各用户对其他各个主题的偏好，预测该用户对其未涉及主题的偏好值。最后依据预测的偏好值向其推荐新的研究主题或方向。因此，本发明充分利用用户对相关学术论文的偏好或兴趣，再依据论文主题模型进行训练，得到每篇论文对应各个主题的主题特征向量、即每篇论文归属于每个主题的主题分布权值矩阵，从而能够更准确地体现每个用户对各个主题的偏好。

由于本发明推荐系统是为用户推荐新的研究方向、即其未涉及的主题，能够开阔用户视野，从而克服了现有学术论文推荐系统导致用户视野越来越窄的缺陷。而且，尽管本发明系统采用了基于用户的协同过滤思路，但是，因为其推荐是基于主题进行训练、计算得到的，因此能够克服数据稀疏问题。

本发明推荐系统的创新关键是基于用户、论文和主题的三层图模型计算得到用户-主题的偏好权值矩阵。而且，在该三层图模型中，不仅考虑论文与其主题的关系，还考虑用户对各篇论文的偏好值以及时间因素。这样，计算得到的用户对主题的偏好权值矩阵更加准确、实用。

另外，本发明推荐系统和推荐方法都是针对主题进行推荐，而且，设置的主题个数通常为100～150个，因此，本发明在一定程度上解决了数据稀疏性问题。总之，本发明基于主题的个性化研究方向推荐系统和推荐方法具有很好的推广应用前景。

附图说明

图1是本发明基于主题的个性化研究方向推荐系统的结构组成示意图。

图2是本发明推荐系统中的用户层、论文层和主题层的三层图结构示意图。

图3是本发明基于主题的个性化研究方向推荐系统的推荐方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明基于主题的研究方向推荐系统是根据用户对其执行过操作行为的该系统内的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题，获悉用户所阅读的论文主题以及其对相关论文主题的偏好，从而为该用户推荐新的研究方向，以拓宽用户视野；该推荐系统设有：论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好矩阵计算模块、研究方向推荐模块和数据库。

参见图1，介绍本发明基于主题的研究方向推荐系统结构组成中的七个组成部件的功能：

(一)论文抓取模块：负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述内容：包括标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间，并将每篇论文使用该论文的链接地址用作标识加以区分后，将抓取的论文全部信息都存储于数据库。

(二)文本预处理模块：负责从数据库中读取每篇论文摘要，并由其分词、词性标注与过滤三个单元依序分别对其进行处理后，得到该论文摘要的分词序列，以便提高后续训练和搜索的效率。其中，分词单元依据空格、标点符号对论文摘要进行分词；词性标注单元对分词后的论文摘要进行词性标注后，过滤单元提取其中的名词词语，并过滤和删除其中对该论文没有实际意义的停用词。

(三)主题模型训练模块：负责读取来自文本预处理模块的论文摘要的分词序列，并将其作为论文文本执行下述主题模型训练：根据设定的主题个数(本发明实施例的主题个数为100～150个)，利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的主题分布权值集合，以使每篇论文文本都具有其对应每个主题的特征向量，然后以每篇论文文本的标识进行区分。

(四)三层图模型构建模块：作为该系统的关键模块，负责根据从数据库中获取用户全部操作行为记录，以及源自主题模型训练模块的训练结果：每篇论文归属于每个主题的主题特征向量，构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型(参见图2)。该三层图模型的结构组成是：由分别位于用户层、论文层和主题层三层中的各个节点，以及用户层与论文层之间的各个边和论文层与主题层之间的各个边所组成。其中，用户层指向论文层的每条有向边表示用户u_i对论文p_j有包括阅读、收藏、分享、下载和评分的操作行为，而论文层指向主题层的每条有向边则表示论文p_j归属于主题t_k。再根据三层图模型中对应边的权值计算公式计算各层之间的边的权值；该模块设有：论文偏好值计算单元和三层图模型构建单元。其中的论文偏好值计算单元用于依据用户操作行为计算每个用户对其操作过的论文集合中各篇论文的偏好值；三层图模型构建单元用于依据用户对论文的偏好值以及论文-主题分布权值矩阵构建三层图模型。

参见图2，再具体介绍本发明推荐系统中的关键技术—三层图模型：

定义该三层图模型的数学表达式为：G＝{V,E}，其中，

节点集合V＝{U,P,T}中的三类节点的集合：

U＝{u₁,u₂,...,u_i,...,u_I}为用户层中表示所有用户的全部用户节点的集合，

P＝{p₁,p₂,...,p_j,...,p_J}为论文层中表示所有论文的全部论文节点的集合，

T＝{t₁,t₂,...,t_k,...,t_K}为主题层中表示所有主题的全部主题节点的集合。

自然数i、j和k分别为用户、论文和主题的序号，且其最大值分别为：I、J和K。

边的集合E＝{S,L}为下述两类边的集合：

S＝{S₁₁,S₁₂,...,S_ij,...,S_IJ}为所有用户节点与所有论文节点之间的边的集合，边S_ij表示用户u_i对该论文p_j有操作行为，并以A_ij作为边S_ij的权值，表示该用户u_i对某篇论文p_j的偏好值；

L＝{L₁₁,L₁₂,...,L_jk,...,L_JK}为所有论文节点与所有主题节点之间的边的集合，边L_jk表示论文p_j属于主题t_k的权值大于设定阈值，也以T_jk作为边L_jk的权值，表示该论文p_j归属于主题t_k的程度。

三层图模型中，用户u_i与论文p_j之间的边的权值，即用户u_i对论文p_j的偏好值A_ij的计算公式为：用户u_i对某篇论文p_j的偏好值A_ij的涵义是用户u_i对该论文p_j有包括阅读、收藏、分享和下载的点击操作行为；式中，为时间衰减系数，表示随着时间推移，用户对该论文的偏好程度会降低，_μ为衰减因子，时间因子(t-t_ij)中的t为当前时间，t_ij为用户u_i对该论文p_j的操作时刻；f_ij为用户u_i在t_ij时刻对该论文p_j的评分、即此时用户u_i对论文p_j的偏好值，f_ij的计算方法有下述两种：

(a)若用户u_i对该论文p_j有评分时，f_ij的数值是用户u_i对论文p_j的评分值；

(b)若用户u_i对该论文p_j没有评分时，则根据用户的不同操作行为或阅读该论文p_j的时长计算f_ij的数值：其中，t_i,j为用户u_i阅读论文p_j的时长，α和β分别为用户u_i浏览论文p_j的时长下限值和上限值。

三层图模型中，论文p_j与主题t_k之间的边的权值T_jk是论文p_j归属于设定主题t_k的程度，也被称为该论文p_j归属于每个主题的主题分布权值、即主题特征向量TS_j＝(T_j1,T_j2,...,T_jk,...,T_jK)中的一个元素，且该主题特征向量TS_j是由主题模型训练模块将论文文本进行主题模型训练计算得到的。

(五)用户-主题偏好权值矩阵计算模块：负责依据三层图模型和下述公式计算用户u_i对所有论文所涉及的某个主题t_k的偏好值：式中，A_ij为用户u_i对论文p_j的偏好值，T_jk为论文p_j属于主题t_k的权值；自然数i、j和k分别为用户、论文和主题的序号，且其最大值分别为：I、J和K。

(六)研究方向推荐模块：负责以用户对各个主题的偏好值作为向量，计算用户与其他用户之间的相似度，再根据相似度数值大小对用户进行排序，选出位于前列的多个用户作为该用户的相似用户集合。再依据该集合中用户的相似度值和用户对各个主题的偏好，计算该用户对其未涉及主题的偏好值。接着，依据该用户对其未涉及主题的偏好值，对这些主题进行排序并形成初始研究方向推荐列表。最后，从初始研究方向推荐列表中选择位于前列的多个(例如8～15个)研究方向作为该用户的研究方向推荐列表，并保存于数据库中。

研究方向推荐模块设有顺序连接的相似度计算、主题偏好值计算和研究方向排序三个单元，其中相似度计算单元负责以用户u_i对所有论文所涉及的各个主题t_k的偏好值作为向量，计算用户u_i与其他用户之间的相似度，再根据相似度数值大小对其他用户进行递减排序，并选择位于前列的多个用户作为用户u_i的相似用户集合；主题偏好值计算单元依据相似用户集合中的用户相似度值和该集合中的用户u_s对所有论文所涉及的各个主题t_k的偏好值计算用户u_i对其未涉及主题的偏好值；研究方向排序单元再依据用户u_i对其未涉及主题的偏好值大小对各个主题进行递减排序，形成初始研究方向推荐列表；再从初始研究方向推荐列表中选择位于前列的若干个研究方向作为用户u_i的研究方向推荐列表，并存储于数据库中。

(七)数据库：用于存储论文抓取模块抓取的所有论文的全部信息，以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录，每项操作行为记录包括：用户标识、论文标识、具体操作行为和起止时间。

参见图3，结合本发明实施例的具体情况，介绍本发明基于主题的个性化研究方向推荐系统的推荐方法的下述七个具体操作步骤：

步骤1，抓取论文：论文抓取模块使用网络爬虫在网络上抓取相关科学技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息，并使用该论文的链接地址作为标识区分后；将抓取的该论文全部信息存储于数据库。

步骤2，对论文摘要进行预处理：使用斯坦福词性标注器StanfordPOSTagger(StanfordLog-LinearPart-Of-SpeechTagger)对论文摘要进行分词、词性标注的预处理操作，并保存词性标记为单数形式名词或物质名词NN(Noun,singularormass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Propernoun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词词语，再过滤并删除没有实际意义的停用词后，还删除剩余词语数少于5的论文摘要，最后，得到预处理后符合条件的论文摘要分词序列。

步骤3，对论文摘要分词序列进行主题模型训练：按照设定的主题个数(实施例为100)，使用潜在狄利克雷分布LDA(LatentDirichletAllocation)主题模型对论文摘要分词序列进行主题模型训练，得到该论文的主题特征向量：TS_j＝(T_j1,T_j2,...,T_jk,...,T_jK)，且式中，T_jk是第j篇论文在第k个主题下的权值，自然数下标k为是主题序号，其最大值为K；然后以每篇论文文本的标识进行区分。

步骤4，构建三层图模型：先从数据库中获取所有用户的全部操作行为记录，再从每个用户对论文的所有操作行为记录中，获取该用户有过操作行为的论文标识，并根据下述公式和用户u_i对某篇论文p_j的操作行为，计算该用户u_i对某篇论文p_j的偏好值：再读取主题模型训练模块的训练结果：每篇论文归属于每个主题的主题特征向量，并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值；若是，则认为该论文属于对应主题；否则，认为该论文不属于对应主题；根据上述计算得到的用户对论文的偏好值和论文归属于主题的主题特征向量，构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型。

步骤5，计算用户-主题偏好权值矩阵：依据三层图模型中每个用户对各篇论文的偏好值，以及每篇对应论文属于相应主题的权值，即依据公式计算每个用户u_i对所有论文所涉及的每个主题t_k的偏好值。

步骤6，预测用户u_i对其未涉及主题的偏好值：将步骤5中得到的用户u_i对所有论文所涉及的每个主题t_k的偏好值矩阵、也就是用户u_i的主题特征向量作为向量，其中，表示用户u_i对第k个主题t_k的偏好值，K为主题的总个数。

再依据余弦相似度计算公式

s i m (u_{i}, u_{s}) = \cos ({vu}_{i}, {vu}_{s}) = \frac{Σ_{k = 1}^{K} {vu}_{i k} \times {vu}_{s k}}{\sqrt{Σ_{k = 1}^{K} {({vu}_{i k})}^{2}} \times \sqrt{Σ_{k = 1}^{K} {({vu}_{s k})}^{2}}}

计算用户u_i与其他用户之间的相似度；式中，vu_i和vu_s分别为两个不同用户、即第i个和第s个用户u_i和u_s的主题特征向量，K为主题总个数，vu_ik为用户u_i对第k个主题的偏好值；再依据用户u_i与其他用户之间相似度值大小，对其他用户进行递减排序，选出位于前列的Q个(实施例为8个)用户作为用户u_i的相似用户集合，Q为自然数。

然后，依据上述集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式：预测该用户u_i对其未涉及主题的偏好；其中，和分别为两个用户u_i和u_s对第k个主题的两个偏好值，和分别为用户u_i和u_s对其所涉及的论文所归属的所有主题偏好值的平均值，v(i,Q)为用户u_i位于前列的Q个相似用户组成的集合。

步骤7，形成研究方向推荐列表：依据步骤(6)预测的用户对其未涉及主题的偏好值，对其未涉及的主题进行排序，再选择出位于前列的多个主题作为用户的研究方向推荐列表，并存储于数据库中，从而实现研究方向的推荐。

本发明已经进行了多次实施试验，试验的结果是成功的，实现了发明目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于主题的个性化研究方向推荐系统，其特征在于：所述推荐系统能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题，获悉用户所阅读的论文主题以及其对相关论文主题的偏好，从而为用户推荐新的研究方向，以拓宽用户视野；该推荐系统设有：论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好权值矩阵计算模块、研究方向推荐模块和数据库；其中：

文本预处理模块，负责从数据库中读取每篇论文摘要，并由其分词、词性标注与过滤三个单元依序分别对其进行下述处理：分词单元依据空格、标点符号对论文摘要进行分词，词性标注单元对分词后的论文摘要进行词性标注后，过滤单元提取其中的名词词语，并过滤和删除其中对该论文没有实际意义的停用词，就得到该论文摘要的分词序列，以便提高后续训练和搜索的效率；

主题模型训练模块，负责读取文本预处理模块处理后的论文摘要分词序列，并将其作为论文文本执行下述主题模型训练：根据设定的主题个数，利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合，以使每篇论文文本都具有其对应每个主题的特征向量，并以每篇论文文本的标识进行区分；

三层图模型构建模块，负责根据从数据库中获取用户全部操作行为记录，以及源自主题模型训练模块的每篇论文归属于每个主题的主题特征向量，构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型；其中，用户层指向论文层的每条有向边表示用户u_i对论文p_j有包括阅读、收藏、分享、下载和评分的操作行为，而论文层指向主题层的每条有向边则表示论文p_j归属于主题t_k；再根据三层图模型中对应边的两种权值计算公式计算各层之间的边的权值；该模块设有：论文偏好值计算单元和三层图模型构建单元；其中的论文偏好值计算单元用于依据用户操作行为记录计算每个用户对其操作过的论文集合中各篇论文的偏好值；三层图模型构建单元用于依据用户对论文的偏好值以及所有论文的主题特征向量构建三层图模型；

2.根据权利要求1所述的推荐系统，其特征在于：所述三层图模型构建模块构建的三层图模型是由分别位于用户层、论文层和主题层三层中的各个节点，以及用户层与论文层之间的边和论文层与主题层之间的边所组成，并定义该三层图模型的数学表达式为：G＝{V,E}，式中，节点集合V＝{U,P,T}为下述三类节点的集合：U＝{u₁,u₂,...,u_i,...,u_I}为用户层中的所有用户节点的集合，P＝{p₁,p₂,...,p_j,...,p_J}为论文层中的所有论文节点的集合，T＝{t₁,t₂,...,t_k,...,t_K}为主题层中的所有主题节点的集合；边的集合E＝{S,L}为下述两类边的集合：S＝{S₁₁,S₁₂,...,S_ij,...,S_IJ}为所有用户节点与所有论文节点之间的边的集合，边S_ij表示用户u_i对该论文p_j有操作行为，并以A_ij作为边S_ij的权值，表示该用户u_i对某篇论文p_j的偏好值；L＝{L₁₁,L₁₂,...,L_jk,...,L_JK}为所有论文节点与所有主题节点之间的边的集合，边L_jk表示论文p_j属于主题t_k的权值大于设定阈值，也以T_jk作为边L_jk的权值，表示该论文p_j归属于主题t_k的程度。

3.根据权利要求2所述的推荐系统，其特征在于：所述三层图模型中，用户u_i与论文p_j之间的边的权值，即用户u_i对论文p_j的偏好值A_ij的计算公式为：式中，为时间衰减系数，表示随着时间的推移，用户对该论文的偏好值会降低，其中，μ为衰减因子，时间因子(t-t_ij)中的t为当前时间，t_ij为用户u_i对该论文p_j的操作时刻；f_ij为用户u_i在t_ij时刻对该论文p_j的评分、即此时用户u_i对论文p_j的偏好值，f_ij的计算方法有下述两种：

(b)若用户u_i对该论文p_j没有评分时，则根据用户的不同操作行为或阅读该论文p_j的时长计算f_ij的数值：其中，t’_ij为用户u_i阅读论文p_j的时长，α和β分别为用户u_i阅读论文p_j的时长下限值和上限值。

4.根据权利要求2所述的推荐系统，其特征在于：所述三层图模型中，论文p_j与主题t_k之间的边的权值T_jk是论文p_j归属于设定主题t_k的程度，也被称为该论文p_j归属于每个主题的主题分布权值，即主题特征向量TS_j＝(T_j1,T_j2,...,T_jk,...,T_jK)中的一个元素，且该主题特征向量TS_j是由主题模型训练模块将论文文本进行主题模型训练计算得到的。

5.一种基于主题的个性化研究方向推荐系统的推荐方法，其特征在于，包括下述七个操作步骤：

(1)抓取论文：论文抓取模块使用网络爬虫在网络上抓取相关学科技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息，并使用论文的链接地址作为其标识区分后；将抓取的论文全部信息存储于数据库；

(4)构建三层图模型：先从数据库中读取所有用户的全部操作行为记录，再从每个用户对论文的所有操作行为记录中，获取该用户有过操作行为的论文标识，并根据下述公式和用户u_i对某篇论文p_j的操作行为，计算该用户u_i对某篇论文p_j的偏好值：再读取主题模型训练模块的训练结果：每篇论文归属于每个主题的主题特征向量，并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值；若是，则认为该论文属于对应主题；否则，认为该论文不属于对应主题；

(6)预测用户u_i对其未涉及主题的偏好值：将步骤(5)中得到的用户u_i对所有论文所涉及的每个主题t_k的偏好值、也就是用户u_i的主题特征向量作为向量，其中，表示用户u_i对第k个主题t_k的偏好值，K为主题的总个数；

接着，依据余弦相似度计算公式计算用户u_i与其他用户之间的相似度；式中，vu_i和vu_s分别为两个不同用户、即第i个和第s个用户u_i和u_s的主题特征向量，K为主题总个数，vu_ik为用户u_i对第k个主题的偏好值；再依据用户u_i与其他用户之间相似度值大小，对其他用户进行递减排序，选出位于前列的Q个用户作为用户u_i的相似用户集合，Q为自然数；

然后，依据上述相似用户集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式：预测用户u_i对其未涉及主题的偏好；其中，和分别为两个用户u_i和u_s对第k个主题的两个偏好值，和分别为用户u_i和u_s对其所涉及的论文所归属的所有主题偏好值的平均值，v(i,Q)为用户u_i位于前列的Q个相似用户组成的集合；