CN103336793A

CN103336793A - 一种个性化论文推荐方法及其系统

Info

Publication number: CN103336793A
Application number: CN2013102309335A
Authority: CN
Inventors: 程学旗; 郭嘉丰; 薛欢; 廖华明; 曹雷
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-06-09
Filing date: 2013-06-09
Publication date: 2013-10-02
Anticipated expiration: 2033-06-09
Also published as: CN103336793B

Abstract

本发明公开了一种个性化论文推荐方法及其系统，其中该方法包括：步骤1，利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，根据所述异质学术网络数据构建训练数据集，并根据所述训练数据集进行训练得到排序学习模型；步骤2，在线构建用户配置，生成用户感兴趣的候选论文集，根据所述候选论文集并基于所述排序学习模型生成论文推荐结果，基于所述论文推荐结果，按照一定方式生成论文推荐返回给用户；步骤3，在线接收用户反馈，并根据不同的用户反馈行为相应地更新所述论文推荐结果。本发明有效地避免了推荐系统初期的“冷启动”问题，保证了推荐结果的准确率和召回率。

Description

一种个性化论文推荐方法及其系统

技术领域

本发明涉及推荐技术领域，特别是涉及一种面向在线社会化学术系统基于用户的个性化论文推荐方法及其系统。

背景技术

论文查阅，是科研人员研究工作的重要组成部分；通过查阅论文，不仅能够帮助科研人员了解相关研究方向的最新进展，而且能够为科研人员提供解决问题的新思路。然而随着科研水平的不断提高，论文的数量也呈现出快速增长态势，截止到2013年2月，仅EI就已经收录了近1500万篇学术论文。如何在海量的文献中找到感兴趣的高质量论文，是每个科研人员所面临的难题。虽然学术搜索引擎（例如Google Scholar）在一定程度上能够帮助科研人员搜索论文，但是这种基于关键词查询的模式存在以下不足：

1)论文查找涵盖了很多内在需求，涉及到论文内容、质量、发表时间和论文的作者研究水平等，而简单的关键字不能够充分地体现出用户的这种需求；

2)搜索引擎缺乏用户的偏好以及背景信息，不能够准确的捕获用户的需求。

因此，迫切需要新的信息获取模式来为研究人员提供更好的论文获取服务。而推荐技术和系统的出现，恰恰能够满足研究人员的特定的论文获取需求，在某种程度上弥补了搜索方式的不足。

推荐系统的本质就是联系用户和物品，一方面帮助用户发现对自己有价值的物品，另一方面让物品能够展示在对它感兴趣的用户面前，从而实现用户和物品利益的双赢。根据用户和物品联系方式的不同，推荐可分为四类：基于内容的推荐、基于协同过滤的推荐、社会化推荐以及混合模型推荐。

基于内容的推荐，即根据用户以往喜欢的物品，找到与这些物品相似的物品推荐给用户。这种推荐机制能够很好地建模用户的兴趣偏好，但时常会缺乏新颖度。基于内容的推荐的质量依赖于对物品建模的完整性和全面性，如果物品不能被很好地提炼它的特征，推荐效果就会下降。

基于协同过滤的推荐，即根据用户对物品的偏好，发现物品之间的相关性或用户之间的相关性，然后基于这些相关性进行推荐。基于协同过滤的推荐可分为三个子类：基于用户的协同过滤，基于物品的协同过滤和基于模型的协同过滤。基于用户的协同过滤即将与目标用户兴趣相似的其他用户所喜欢的，且目标用户没有听说过的物品推荐给目标用户。基于物品的协同过滤即是将与目标用户所偏好物品相似的其他物品推荐给目标用户。基于模型的协同过滤推荐，即基于已有用户对物品的喜好信息，训练一个推荐模型，然后求出目标用户和所有物品的相似度，选出得分最高的物品推荐给目标用户。

社会化推荐，即利用社交网络数据给用户推荐物品。人口统计学信息，比如性别、公司、学校、电子邮件等，用户的位置数据、论坛和讨论组等都可以间接地获取隐性社交关系数据。当然，社交网站是最直接的能获取显性社交关系的途径。推荐系统可以推荐用户的好友感兴趣的物品，或者更好地帮助用户找到与自己兴趣相似的好友，更快地找到自己感兴趣的内容。

混合模型推荐，是指将多个推荐方法混合在一起，避免单个推荐的缺点，综合多个推荐，从而达到更好的推荐效果。常用的混合方法包括加权的混合、切换的混合、分区的混合、分层的混合等。

此前常用的论文推荐方法是基于内容的推荐方法，即利用关键词或者话题对用户的历史关注论文进行建模，然后找到与之相似的论文推荐给用户。然而传统的基于内容的推荐仅仅考虑了内容相关性，忽视了论文所蕴含的其他丰富的信息，包括论文的质量、时间、发表论文的期刊会议的主题和质量，以及论文作者的背景和声望等。因此，推荐结果不能很好的满足用户需求。另外，推荐系统通常都面临“冷启动”问题，即在用户行为较少的情况下，不能够准确对用户或物品进行建模，进而不能够为用户推荐高质量的结果，从而形成较差的用户体验。

针对上述问题，需要提供一种论文推荐方法。

发明内容

本发明的目的在于提供一种个性化论文推荐方法及其系统，用于解决现有技术中推荐结果不能很好地满足用户需求，推荐系统通常都面临“冷启动”问题等问题。

为了实现上述目的，本发明提供一种个性化论文推荐方法，其特征在于，包括：

步骤1，利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，根据所述异质学术网络数据构建训练数据集，并根据所述训练数据集进行训练得到排序学习模型；

步骤2，在线构建用户配置，生成用户感兴趣的候选论文集，根据所述候选论文集并基于所述排序学习模型生成论文推荐结果，基于所述论文推荐结果，按照一定方式生成论文推荐返回给用户；

步骤3，在线接收用户反馈，并根据不同的用户反馈行为相应地更新所述论文推荐结果。

所述的个性化论文推荐方法，其中，所述步骤1中，包括：

步骤11，利用科研领域中研究人员撰写学术论文的行为特性，构造用户历史关注论文集和训练论文集；

步骤12，根据所述用户历史关注论文集，对所述训练论文集中的每篇论文提取异质特征，生成所述训练数据集；

步骤13，根据所述训练数据集进行训练得到排序学习模型。

所述的个性化论文推荐方法，其中，所述步骤1中，包括：

采用文档对方法对所述训练数据集进行训练获取所述排序学习模型。

所述的个性化论文推荐方法，其中，所述步骤2中，包括：

步骤21，根据用户的行为，在线构建用户配置；

步骤22，获得用户配置后，挖掘所述异质学术网络数据，生成用户可能感兴趣的候选论文集；

步骤23，根据用户配置，对用户可能感兴趣的候选论文集中的每篇论文提取特征值，并基于所述排序学习模型，获取每篇论文的排序得分，得到排序最高的论文列表，将所述论文列表中的论文存储到推荐结果集，并按照一定方式生成论文推荐返回给用户。

所述的个性化论文推荐方法，其中，所述步骤23中，包括：

采用多项分布的采样策略从所述推荐结果集中选择论文推荐给用户。

为了实现上述目的，本发明提供一种个性化论文推荐系统，其特征在于，包括：数据中心模块、推荐中心模块、在线服务模块；

所述数据中心模块，用于从数据中心获取和更新数据，并构建用户配置；

所述推荐中心模块，连接所述数据中心模块，用于利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，根据所述异质学术网络数据构建训练数据集，并根据所述训练数据集进行训练得到排序学习模型；根据用户配置信息生成用户感兴趣的候选论文集，根据所述候选论文集并基于所述排序学习模型生成论文推荐结果；获取用户在线反馈，根据不同的用户反馈行为相应地更新论文推荐结果；

所述在线服务模块，连接所述数据中心模块、所述推荐中心模块，用于基于论文推荐结果，按照一定方式生成论文推荐返回给用户，并当用户对推荐行为反馈后，把用户反馈行为放入消息队列，交给所述推荐中心模块处理。

所述的个性化论文推荐系统，其中，所述数据中心模块，用于当用户反馈行为为感兴趣、不感兴趣或已读过时，将论文推荐结果中的相应论文删除。

所述的个性化论文推荐系统，其中，所述推荐中心模块，包括：

离线训练模块，用于从所述异质学术网络数据中提取异质特征，根据所述异质特征构造训练数据集，对所述训练数据集训练离线排序学习模型，得到排序学习模型，并在排序学习模型完成后根据用户配置信息生成用户感兴趣的候选论文集，根据所述候选论文集并基于所述排序学习模型初始化论文推荐结果；

反馈分析模块，用于从所述用户消息队列中获取用户在线反馈，根据不同的用户反馈行为，采取不同方式更新所述论文推荐结果。

所述的个性化论文推荐系统，其中，所述反馈分析模块，还用于判断所述论文推荐结果的大小，并当小于一特定数目时重新获取用户配置，生成新的推荐论文以更新所述论文推荐结果。

所述的个性化论文推荐系统，其中，所述在线服务模块，包括：

推荐结果模块，用于基于所述推荐论文结果，按照一定方式生成论文推荐返回给用户；

推荐反馈模块，用于当用户对推荐行为反馈后，把用户反馈行为放入用户消息队列，交给所述推荐中心模块处理。

与现有技术相比，本发明的有益技术效果在于：

本发明提供的推荐方法，是把论文推荐看成排序问题，强调排序靠前的论文与用户兴趣更相似，采用监督式排序学习方法得到论文的排序模型，并使用该模型来实现基于用户的个性化论文推荐；该排序模型不仅考虑概念、关键词、标题和摘要等文本内容的相似度，同时也考虑了论文重要度、作者重要度、会议重要度、年份、作者重合度、论文来源等重要特征；该方法利用丰富的异质学术网络数据，生成用户感兴趣候选论文集，保证了推荐结果的准确率和召回率，从而也有效地避免了推荐系统初期的“冷启动”问题；利用学术科研领域中研究人员撰写学术论文的行为特性（即研究人员认为自己撰写论文中的引文具有更大的参考价值，对引文的喜好大于同领域中其他相关论文），自动构建排序模型所需的训练数据集，减少了人工标注的开销，极大的提高了系统开发效率。具体体现在如下方面：

1.利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，采用有监督的排序学习方法实现基于用户的个性化论文推荐，从而有效地避免了推荐系统初期的“冷启动”问题。

2.在线获取用户配置后，提出一种新的方式生成用户感兴趣的候选论文集，既保证了推荐结果的准确率和召回率，同时又保证了实时系统的运行效率。

3.利用行为队列保存用户行为反馈，根据用户的不同行为采取不同的方式更新推荐结果，保证了推荐系统的完整性与实时性。

附图说明

图1是本发明利用排序学习方法实现个性化论文推荐的流程图；

图2是本发明离线训练排序学习模型的流程图；

图3是本发明在线实现基于用户的论文推荐的流程图；

图4是本发明个性化论文推荐系统的整体架构及流程图；

图5是本发明根据用户反馈更新论文推荐的流程图。

具体实施方式

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

如图1所示，描述了利用排序学习方法实现个性化论文推荐的流程图。该流程为利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，提取大量异质特征，构造排序学习方法所需的训练数据集，并离线训练排序学习模型；根据用户不同的行为在线构建用户配置，生成用户感兴趣的候选论文集，基于排序学习模型生成在线论文推荐结果；在线接收用户反馈，根据不同的用户反馈行为相应地更新推荐结果，不但有效地避免了推荐系统初期的“冷启动”问题，而且提高了个性化论文推荐的准确率和召回率。包括以下步骤：

步骤110，利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，从异质学术网络数据中提取大量异质特征，构建排序学习方法所需的训练数据集，并根据训练数据集离线训练排序学习模型。

该步骤中，离线训练排序学习模型的详细过程如图2所示。

步骤120，在线构建用户配置，并根据用户配置信息生成用户感兴趣的候选论文集，基于离线排序学习模型生成论文推荐结果，在线给用户提供个性化论文推荐。

该步骤中，在线实现用户论文推荐的详细过程如图3所示。

步骤130，在线接收用户反馈，并根据不同的用户反馈行为相应更新论文推荐结果。

关于论文推荐的用户反馈行为有三种：“感兴趣”、“不感兴趣”和“已读过”。针对不同的用户反馈行为，相应地更新论文推荐结果。具体在后续的推荐系统的反馈分析模块描述。

如图2所示，是本发明离线训练排序学习模型的流程图。该流程描述了离线训练排序学习模型的详细过程，包括以下步骤：

步骤112，利用科研领域中研究人员撰写学术论文的行为特性，构造用户历史关注论文集和训练论文集。

由于在线系统运行初期，没有大量的用户行为记录，“冷启动”问题是推荐引擎初期所面临的难题之一。个性化论文推荐的目的是基于用户的历史关注论文，找出用户最想要阅读的论文推荐给用户。研究人员撰写学术论文时，会把自己最近已读过的最相关论文添加到自己的引文列表中，即研究人员认为引文中的论文具有更大的参考价值，对引文的兴趣大于同领域中的其他论文。构造如下场景：选择发表论文时间超过两年的作者，以作者发表论文最近一年为时间点切分，该时间点之前作者发表论文S_past的引文当作该作者“历史关注论文集”I，该时间点之后作者发表论文S_latest的引文（且不在I中）当作该作者“未来感兴趣论文集”P_interest。随机从异质学术网络数据中选择同等数量的其他论文当作用户的“未来不感兴趣论文集”P_non。用户未来感兴趣论文集和不感兴趣论文集构成了用户的训练论文集P＝P_interest∪P_non。然后对训练论文集中每个论文打标签。标签是指用户对论文的感兴趣程度。假若用户对某一论文的引用次数越多，说明用户对这篇论文的感兴趣程度越高。本发明采用论文的出现频率来刻画标签。很显然，对于P_non中的论文，它们的标签是“0”。

l_i＝Freq(p_i,S_latest)

其中，l_i表示第i篇论文p_i(p_i∈P)的标签，Freq(p_i,S_latest)表示论文p_i被S_latest的引用次数。

类似于排序学习方法常用到的信息检索领域，训练数据集包含两个部分“查询”和“文档”，本方法中用户的历史关注论文集I相当于查询，而训练论文集P相当于文档。本发明利用科研领域中研究人员撰写学术论文的行为特性，把作者当作用户，构造用户历史关注论文集和训练论文集。

步骤114，对训练论文集中的每篇论文提取异质特征。特征用于刻画排序学习方法中的训练数据。

本发明提取大量异质特征，并进行验证，总结为下述三类特征：

a)静态特征。例如论文的重要度，论文中作者的最大、最小以及平均重要度，论文的出版商的重要度，论文的发表年份等。

b)来源关系特征。论文是如何从用户的历史关注论文推导得来的，例如引用、被引用、共同引用、共同被引用、同一个作者、同一个出版商等。来源关系是单一的还是混合的。

c)内容关系特征。论文和用户历史关注论文的标题、摘要、概念、关键词及领域的最大、最小及平均相似度，作者和出版商的相似度和出现比率等。

至此，排序学习方法所需的训练数据集构造方法的描述完成。通过离线实验验证，发现作者的出现比率、论文的重要度、作者的最大重要度、概念相似度、共同引用等特征的权重较高。

步骤S116，排序学习方法即一种有监督的自动对训练数据构建排序学习模型的机器学习方法。它可以表示为：给定数据集E，(Q⁽ⁱ⁾,D⁽ⁱ⁾)∈E，其中Q⁽ⁱ⁾是一个向量，D⁽ⁱ⁾是Q⁽ⁱ⁾对应的Doc集合，

i＝1,2...,n，其中n表示数据集中Q的个数，m表示D⁽ⁱ⁾集合的大小。对数据集E构造排序学习模型，使得能够精确预测未知样本集D⁽ⁱ⁾,i＝1,2,...,n的标签序列，误差值越小越好。由于排序学习模型的输入数据不同，现有的排序学习方法包括三类：单文档方法（pointwise）、文档对方法（pairwise）和文档列表方法（listwise）。

单文档方法的处理对象是单独的一篇文档，文档是与查询无关的。首先将文档转换为特征向量，然后根据训练数据中的标签把排序问题看成分类或回归问题，用已有的机器学习方法对训练数据构造分类器或回归函数，最后对未知文档打分。单文档方法完全从单个文档的角度考虑，没有考虑到文档之间的顺序关系。

文档对方法则是将重点转向查询的文档对之间的顺序关系。文档对学习方法的训练过程和训练目标是，构造具有偏序关系的样本对，训练模型使得错误的偏序对越少越好。例如针对查询q_i，有三个相关文档及得分分别是＜doc1,5＞，＜doc2,4＞，＜doc3,3＞。按照文档得分大小的顺序关系，得到3个文档对＜doc1,doc2＞，＜doc1,doc3＞，＜doc2,doc3＞，将每个文档对的距离转换为特征向量，就形成了一个具体的训练实例，该方法最终使得错误的偏序对越少越好。

文档列表方法是将每一个查询对应的所有文档结果列表整体作为一个训练实例。文档列表方法的优化目标是最大化排序学习模型学到的序与已知的序相似的概率。

由于单文档方法只考虑了文档的分类或打分，没有考虑与查询之间的关系，太过简单，不符合实际情形；而文档列表方法需要获得每个查询的所有文档的全排序，训练数据难以获取，所以本发明采用文档对方法，具体使用RankSvm算法训练排序学习模型。

RankSvm算法在训练模型阶段包括三个步骤：

1)对训练数据集中每个用户的候选论文构造特征向量

其中，

表示第k个用户第i篇论文对应的特征向量，表示第k个用户第i篇论文对应的标签；

2)按照步骤1构造的特征向量计算两个论文对之间的距离，例如

和

若

l_{i}^{(k)} > l_{j}^{(k)},

则

f (x_{i}^{(k)}) > f (x_{j}^{(k)});

若

l_{i}^{(k)} > l_{j}^{(k)},

则

f (x_{i}^{(k)}) < f (x_{j}^{(k)}) .

3)对训练数据集中每个用户的任两篇论文之间计算距离，得到不同的类别，因此可以转换成传统的分类问题，用svm算法实现。排序学习问题就可以转换成下述的svm分类问题：

\min imize : V (w, ξ) = \frac{1}{2} | | w^{2} | | + C Σ_{k = 1}^{m} ξ_{k}

s . t . : (l_{i}^{(k)} - l_{j}^{(k)}) (w^{T} x_{i}^{(k)} - w^{T} x_{j}^{(k)}) &GreaterEqual; 1 - ξ_{k}

l_{i}^{(k)} > l_{j}^{(k)}, &ForAll; ξ_{k} &GreaterEqual; 0, k = 1,2, . . . m

其中w表示排序学习模型中各特征的权重值，ξ是损失因子，m是训练数据集中用户的个数。

排序问题具有几下特点：

第一，相关度可以分为多个级别，高度相关的文档比部分相关的文档更有价值，其在评价中应该赋予更大的权值；

第二，文档在序列中的位置越靠后，这个文档的价值越小，用户去看这些文档的几率越小。

NDCG评价方法中，每一个文档都对它所在的位置有一定的贡献，其贡献值与文档的相关度有关，然后，所有的位置上的贡献值相加作为最终的评价结果。在本实施例中，采用NDCG作为排序学习方法的评估方法。NDCG值定义为：

NDCG = \frac{1}{N_{k}} \cdot Σ_{i = 1}^{k} \frac{2^{l_{i}} - 1}{\log (1 + i)}

其中l_i表示位置为i的论文的标签，N_k为归一化因子。至此，离线排序学习模型训练完成。

如图3所示，是本发明在线实现基于用户的论文推荐的流程图。该流程描述了在线实现用户论文推荐的详细过程，包括以下步骤：

步骤122，根据在线社会化学术系统中用户的行为，在线构建用户配置。

在线社会化学术系统中，用户有很多行为可以反映他们对论文的偏好兴趣。例如，用户可以声明自己发表的论文I_D，并得到这些论文的引文I_R；用户可以标注论文I_B；用户可以分享论文I_S；用户可以喜欢论文I_L；用户可以评论论文I_C等。根据不同的用户行为，构建如下用户配置：

I＝I_D∪I_R∪I_B∪I_S∪I_L∪I_C

利用以上方法构造的用户配置，充分地考虑了用户对论文的偏好兴趣；且只要用户采取了上述任一种行为，都将会在后续步骤中为用户推荐结果。

步骤124，获得用户配置后，挖掘异质学术网络数据，生成用户可能感兴趣的候选论文集。有下面六种方式被本发明所采纳，并验证其有效性：

a)论文及引文之间有很强的相关性，引文关系分析是选取相关论文的重要方法之一。本发明采用引用、被引用、共同引用、共同被引用的论文当作引文关系中最相关的论文。

b)用户关注一篇论文后，他可能会继续关注该论文作者的其他后续工作。因此用户关注论文中作者的其他发表论文也被选入候选论文集。

c)用户关注一篇论文后，他可能会继续关注发表在此论文发表的出版商的其他论文。因此用户关注论文的出版商中的其他发表论文也被选入候选论文集。

本发明基于离线排序学习方法构造的训练数据集，对此六种方式进行了实验验证，并证明了其有效性，如下表所示。

来源	准确率	召回率
			引用	1.003%	11.512%
被引用	4.702%	8.838%
			共同引用	1.131%	38.884%
共同被引用	1.373%	29.405%
			同一个作者	0.634%	20.752%
同一个出版商	0.056%	25.813%
			以上所有	0.046%	79.840%

由上表可以看出，选择上述几种方式能够很好地覆盖用户想要阅读论文的范围，召回率很高，接近80%，而且在很大程度上缩小了用户可能感兴趣的论文的范围，在实际系统中具有可行性。

步骤126，根据用户配置以及生成的候选论文集，对每篇论文提取特征值，基于离线训练的排序学习模型，计算每篇论文的排序得分，并得到排序最高的论文列表。为了提高用户的体验，防止在用户配置没有更新的情况下提供相同的推荐结果，本发明先存储论文列表中的论文到推荐结果集，然后采用多项分布的采样策略从推荐结果集中选择一定量的论文推荐给用户。采样策略具体描述如下：

假设推荐结果集中论文为R＝{r₁,r₂,...,r_n},对应的论文推荐得分分别为S＝{s₁,s₂,...,s_n}，则每次采样论文为r_i的概率为：

其中n为推荐结果集中论文的个数。

如果共进行了k次独立的实验，实验结果落入每篇论文的次数分别为X＝{x₁,x₂,...,x_n}的概率为：

P (X_{1} = x_{1}, . . ., X_{n} = x_{n}) = \{\begin{matrix} \frac{k!}{x_{1}! \cdot \cdot \cdot x_{n}!} p_{1}^{x_{1}} \cdot \cdot \cdot p_{n}^{x_{n}} & when Σ_{i = 1}^{n} x_{i} = k \\ 0 & otherwise \end{matrix}

本发明每次依论文采样概率随机选择论文p，直到选择不同的10篇论文推荐给用户。

如图4所示，为本发明个性化论文推荐系统的整体架构及流程图。该系统400具体包含三大模块：数据中心模块10、在线服务模块20、推荐中心模块30，三个模块均位于后台服务器。

数据中心模块10，构建用户配置，并实现从数据库、Redis和内存等数据中心获取和更新数据，它将不同数据源的不同数据类型进行封装，将具体数据访问细节进行封装，提供给其他模块数据访问功能，并有利于扩展和维护。数据中心模块10是整个系统400的核心，所有的模块将与其打交道。使其提供丰富的数据访问接口，也有利于系统高效地运行。数据从逻辑上可分为原始数据、知识库和推荐结果集。

原始数据，包括所有未加工的基本源数据，比如用户行为数据（在本系统400中体现为用户注册信息、声明论文、标注论文、喜欢论文、收藏论文、分享论文）、异质学术网络数据或固定信息数据（包含论文、作者、出版商、概念等实体的具体信息及关联关系，例如论文的作者，论文发表的出版商，论文之间的引用关系）以及日志数据（scribe记录的数据）等。

知识库，即对本系统400有价值及辅助作用的额外数据，包括离线训练的语料集，离线训练的模型，其他资源数据等，例如算法模型。

推荐结果集，即不同的推荐算法生成的不同的推荐候选结果。

在线服务模块20，其直接与前端打交道，包括：推荐结果模块21、推荐反馈模块22。

推荐结果模块21，用于基于推荐结果集，按照一定方式生成论文推荐返回给用户，本发明中采用基于多项分布的采样策略。

推荐反馈模块22，用于当用户有推荐行为（“感兴趣”、“不感兴趣”、“已读过”）反馈后，把用户反馈行为放入消息队列，最后交给反馈分析模块32处理。

当用户需要个性化论文推荐结果时，前端通过Thrift调用接口调用后台服务，推荐结果模块21从推荐结果集中按照一定的方式选出10篇论文推荐给用户。选择方式采用依多项分布的采样策略。若用户不喜欢当前推荐结果或需要另外的推荐时，可选择更新推荐。更新推荐即按照一定的方式选出推荐结果集中的论文（去除当前推荐的论文）推荐给用户，同时将当前推荐的得分降低分值。

用户对推荐结果有行为反馈（“感兴趣”、“不感兴趣”、“已读过”）后，前端通过Thrift调用接口传送信号给后台服务器，推荐反馈模块22接收到信号后将用户账号、论文账号以及用户反馈行为绑定后放入消息队列。

消息队列，是为了实现通过用户的反馈来及时地更新推荐结果，实现用户行为驱动的论文推荐的更新。同时它也是连接在线服务模块20和推荐中心模块30的桥梁。消息队列的实现方式是将所有会影响推荐的用户反馈行为进行记录，当其达到一定的数量或者到达一定的时间时，重新计算所有涉及到用户的推荐动态。

考虑到在线系统中多用户多行为的特点，为每个用户创建一个自己的消息队列，每个消息队列有单独的线程运行推荐更新操作。当用户有行为反馈后，首先判断线程是否运行，若线程正在运行，则把用户反馈行为加入到自己的消息队列中，若线程已经退出，则重新启动线程，并把用户反馈行为加入到自己的消息队列中。消息队列线程按照一定的方式取出消息队列中的元素，然后启动推荐更新操作，直到消息队列为空为止，线程退出。选取方式可采用定时或定量的方式选取，例如消息队列中的用户行为数超过3个或距上次选取时间超过1分钟等等。

推荐中心模块30，其是推荐系统400的核心模块，它包括推荐算法的实现以及推荐结果的生成及更新，具体包括两个子模块：离线训练模块31、反馈分析模块32。

离线训练模块31，它为推荐系统400实现推荐算法并初始化数据中心模块10的推荐结果集。本系统400中采用有监督的排序学习方法实现个性化论文推荐。挖掘异质学术网络数据，从异质学术网络数据中提取大量异质特征，构造训练数据集，标注数据作为测试数据集，利用排序学习方法对训练数据集训练离线排序学习模型，对测试数据集中数据预测排序结果，最终使用NDCG评估方法评价排序学习模型。模型训练完成后，根据系统400中每个用户的配置，初始化推荐结果集。

具体地，推荐结果集的初始化过程如下：首先构建用户配置，即选出用户在天玑学术网中已经关注的论文，包括声明论文、标注论文、喜欢论文、收藏论文、分享论文等（若用户暂且没有在系统中有上述行为操作，则提示用户在系统中声明、标注、喜欢、收藏、分享论文），然后生成用户可能感兴趣的候选论文集，利用排序学习模型，得到论文预测得分，最终选取得分最高的前50篇论文及相关特征插入到数据中心模块10的推荐结果集。

反馈分析模块32，从用户消息队列中获取用户在线反馈，根据不同的用户反馈行为，采取不同方式调用推荐算法更新推荐结果集。

本系统400中关于论文推荐的反馈行为有三种：“感兴趣”“不感兴趣”和“已读过”，参见图5所示。

如图5所示，描述了针对不同用户反馈行为采取不同方式更新论文推荐的流程图，其中A部分表示“感兴趣”的反馈操作，B部分表示“不感兴趣”的反馈操作，C部分表示“已读过”的反馈操作，除了A、B、C以外的部分表示所有行为的共同反馈操作，

对于“感兴趣”的反馈行为，首先在数据中心模块10的推荐结果集中删除该条数据，表示这篇论文不会再推荐给用户。由于用户的配置即关注论文更新，则给用户的论文推荐肯定要随之更新。选择用户反馈的论文，生成该篇论文的候选论文集，然后融合数据中心模块10的推荐结果形成新的候选论文集，利用离线排序学习模型，计算论文得分，如果候选论文集中某些论文存在于知识库的用户可能不感兴趣的论文集中，则把它们降低分值，最终选取得分最高的50篇论文及相关特征更新到数据中心模块10的推荐结果集。

对于“不感兴趣”的反馈行为，首先在数据中心模块10的推荐结果集中删除该条数据。由于用户不喜欢这篇论文，那么和它相关的论文用户的兴趣也会降低。选择用户反馈的论文，生成该篇论文的候选论文集，然后融合知识库中用户可能不感兴趣的论文集形成新的候选论文集，利用离线排序学习模型，计算论文得分，选取得分最高的100篇论文（即用户最可能不喜欢的论文）更新到知识库。最后更新推荐结果集中论文的得分，如果知识库中用户可能不感兴趣的论文存在于推荐结果集中，则降低分值，更新到推荐结果集。由于推荐结果集中论文数量减少，假设用户对全部结果都进行反馈后，会导致没有推荐结果，所以在这里要判断推荐结果集的大小，若小于一特定数目，则重新获取用户配置，生成新的推荐更新到推荐结果集。

对于“已读过”的反馈行为，首先在数据中心模块10的推荐结果集中删除该条数据。然后用户可以选择是否标注论文，若用户标注论文，则表明用户对这篇论文是感兴趣的，即按照“感兴趣”的论文推荐更新方式操作。若用户不标注论文，则暂且并不能看出用户对论文的态度，有可能因为用户当时对这篇论文不感兴趣（弱的负反馈），或者有可能因为用户虽然读过但不想对这篇论文标注（弱的正反馈），所以暂时没有更新推荐结果集。由于推荐结果集中论文数量减少，所以在这里要判断推荐结果集的大小，若小于一定值，则重新获取用户配置，生成新的推荐更新到推荐结果集。

对于推荐系统的难题之一“冷启动”问题，本发明使用排序学习方法来实现在线的基于用户的个性化论文推荐，使得能够在系统初期用户行为很少时给出更精确的论文推荐结果；对于新用户，如果在系统400中没有任何关于论文的行为操作，建议他首先在系统中声明、标注、喜欢、分享或评论论文。

对于推荐系统400中的用户反馈，本发明采用不同的方式针对不同的用户反馈行为更新论文推荐，保证了推荐系统的准确性与完整性。

本发明提出了一种面向在线社会化学术系统的个性化论文推荐方法和系统，其利用科研领域中研究人员撰写学术论文的行为特性，挖掘异质学术网络数据，提取大量异质特征，构建排序学习方法所需的训练数据集，并离线训练排序学习模型；在线构建用户配置，并生成用户感兴趣的候选论文集，基于排序学习模型生成论文推荐结果；在线接收用户反馈，并根据不同的用户反馈行为相应地更新推荐结果。本发明提出的方法不但有效地避免了推荐系统初期的“冷启动”问题，而且提高了个性化论文推荐的准确率和召回率。

本发明采用监督式排序学习方法得到论文的排序学习模型，并使用该排序学习模型来实现基于用户的个性化论文推荐，采用消息队列的方式保存用户反馈行为，并基于用户反馈行为来实时更新用户的论文推荐结果，从而保证了推荐结果的准确性和实时性，以及推荐系统的功能完整性。目前该推荐方法和系统已经应用在天玑社会化学术系统中，并得到了用户的良好反馈。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种个性化论文推荐方法，其特征在于，包括：

2.根据权利要求1所述的个性化论文推荐方法，其特征在于，所述步骤1中，包括：

步骤13，根据所述训练数据集进行训练得到排序学习模型。

3.根据权利要求2所述的个性化论文推荐方法，其特征在于，所述步骤1中，包括：

4.根据权利要求1、2或3所述的个性化论文推荐方法，其特征在于，所述步骤2中，包括：

步骤21，根据用户的行为，在线构建用户配置；

5.根据权利要求4所述的个性化论文推荐方法，其特征在于，所述步骤23中，包括：

6.一种个性化论文推荐系统，其特征在于，包括：数据中心模块、推荐中心模块、在线服务模块；

7.根据权利要求6所述的个性化论文推荐系统，其特征在于，所述数据中心模块，用于当用户反馈行为为感兴趣、不感兴趣或已读过时，将论文推荐结果中的相应论文删除。

8.根据权利要求6或7所述的个性化论文推荐系统，其特征在于，所述推荐中心模块，包括：

9.根据权利要求8所述的个性化论文推荐系统，其特征在于，所述反馈分析模块，还用于判断所述论文推荐结果的大小，并当小于一特定数目时重新获取用户配置，生成新的推荐论文以更新所述论文推荐结果。

10.根据权利要求6、7或9所述的个性化论文推荐系统，其特征在于，所述在线服务模块，包括：