CN105843799B

CN105843799B - 一种基于多源异构信息图模型的学术论文标签推荐方法

Info

Publication number: CN105843799B
Application number: CN201610208244.8A
Authority: CN
Inventors: 程红蓉; 蔡腾远; 张盼; 郭彦伟; 唐明霜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2018-11-23
Anticipated expiration: 2036-04-05
Also published as: CN105843799A

Abstract

本发明是一种基于多源异构信息图模型的学术论文标签推荐方法。本发明根据普遍存在于标签数据集的三元关系，即用户‑物品‑标签，再结合物品之间的内容信息，构建了多源异构信息图模型。该图模型可以将多种数据信息整合到一个图中，可以方便的发现哪种数据信息组合能更好地提升标签推荐的精度。除此之外，本发明设计的图模型仅仅添加少部分文本内容相似度关系，因此该图模型具有高效的执行效率。通过相关实验，本发明得到了较传统标签推荐方法更加有效的执行效率和更高的推荐精度。

Description

一种基于多源异构信息图模型的学术论文标签推荐方法

技术领域

本发明涉及数据挖掘、信息提取和推荐系统领域，是一种基于多源异构信息图模型的学术论文标签推荐实现方法。

背景技术

随着互联网的快速发展，像音乐、图片、电影和论文之类的在线资源快速增长。标签被广泛的用于对这类资源进行注释和分类，以便于用户的查找搜索。同时，标签系统也被广泛的应用于各个网站，成为其重要的组成部分，例如音乐网站Last.fm、论文网站CiteULike和电影评论网站豆瓣等。在这些网站中，标签以简短的词汇描述了物品，用户可以根据物品的标签属性，快速的了解该物品，方便了其对物品的筛选查找，提升了用户的体验。与此同时，网站希望用户可以给物品标注准确客观的标签信息，用于保证标签系统的良性循环。在这种环境下，标签推荐应运而生，同时，标签推荐也成为当前的研究热点，受到各个领域的关注。

标签推荐系统可以高效的为用户提供恰当的标签，节省了时间，提高了用户的参与度，提升了用户实际体验。同时，标签推荐系统还可以规范标签的书写，减少了歧义，提高了标签品质。

标签推荐的主要任务是为用户快速的找出合适的标签信息。在标签推荐系统中，存在一种混合图模型的方法。利用图模型，可以很容易的利用数据集中的各种信息。图是一种数据呈现的形式，有一定的关系结构。图中，可以很方便的在同一种标准下呈现出多种数据信息。图中边的权重可以很好的表示各个对象关系的强弱。本发明根据标签数据中普遍存在的三元关系，设计了新的层次图模型。于此同时，通过K近邻算法计算物品的文本内容信息，并将计算得到的邻居添加到图模型中，这样可以加强物品之间的内在联系，充分利用多种数据信息，提高推荐精度。

发明内容

基于上述背景技术，本发明提出了一种基于多源异构信息图模型，高效地为学术论文推荐相关的标签信息。传统的标签推荐方法没有能直观的呈现出标签数据的结构，然而，赋有层次的图模型不仅可以很好的呈现出数据的内在结构，而且能很好的整合各种数据信息。本发明设计的多源异构信息图模型具有多层次的特点，可以方便的观察出哪些数据信息组合能更加有效地提高标签推荐精度，进而优化整个算法，提高推荐的性能。使用本发明的标签推荐方法，可以应用于网络标签系统中，用于提供标签推荐功能和提高推荐标签的质量，提升用户实际体验。

本发明提出的学术论文标签推荐方法是一种基于多源异构信息图模型的混合方法。该方法用赋有层次的图模型直观的呈现和整合了各种数据信息，提高了推荐的精度。同时，因只添加部分论文文本内容相似性关系，该方法可以保证推荐的执行效率。本发明的具体实施步骤如下：

1.论文文本信息向量化

1)提取数据集中学术论文的标题和摘要信息，用于构建论文的内容文本信息。

2)去除论文文本信息中的标点符号以及停用词，然后计算其TF-IDF(termfrequency –inverse document frequency)值，获取前N项高分词汇组成词汇表，按降序对词汇进行排序，并对词汇表中的每个词汇进行编号。

3)根据得到的词汇表，统计每篇论文的词汇信息，组成论文的一个文本向量，其中每一行的行号对应于数据集中论文的编号，每行是论文词汇向量化的结果，其中每一项表示成词汇编号、词频的形式。

2.计算论文之间相似度

根据论文的文本向量，本发明使用余弦相似度计算论文之间的相似性。如公式(1)所示：

3.构建多源异构信息图

1)根据数据集中含有的信息，本发明将用户、论文以及标签看做图中的三种顶点，用于构建多源异构信息图。

2)根据论文中含有标签信息的关系，构建论文顶点集与标签顶点集之间边的关系。如果论文A中含有标签T，则在多源异构信息图中对应的论文A顶点和标签T顶点之间存在边，否则不存在边。如公式(2)所示：

3)根据论文之间的引用关系，加强论文子图内部关系，构建论文-论文边关系。如果论文A引用了论文B，则在图中对应论文A顶点和论文B顶点之间存在边，否则不存在边。如公式(3)所示：

4)根据论文文本内容相似性的关系，进一步加强论文子图内部关系，构建论文之间边的关系。本发明使用K近邻算法找出论文前K个最邻近的论文，然后在图中给对应顶点之间添加一条边。如公式(4)所示：

5)根据用户查阅论文的关系，本发明将用户的信息添加进图中，充分利用各种信息。如果用户U查阅过论文A，则在图中对应的用户U顶点和论文A顶点之间存在边，否则不存在边。如公式(5)所示：

4.本发明在多源异构信息网络图模型上，运用重启动的随机游走算法，计算各个节点之间的结构相关性。

1)根据多源异构信息网络图模型，得到其邻接矩阵M，然后对邻接矩阵M经行正则化得到标准化后的矩阵

2)本发明在多源异构信息网络图模型上运用重启动的随机游走算法，计算图中各个节点之间的结构相关性。如公式(6)所示：

其中c是返回出发点的概率，是重启动向量，表示初始状态。重启动向量是第i维为1的单位向量。

3)多次迭代公式(6)，经过有限次的随机游走过程，图中各个顶点之间的概率达到平稳的状态，再次迭代不会改变图中的概率分布。此时，图中每个点的概率值可以看为该顶点与出发点的相似度。

4)对稳定的概率分布进行排序，找出与目标顶点结构相关的Top N候选顶点。

附图说明

图1是本发明的多源异构信息网络图模型；

图2是本发明在两个数据集上与其他标签推荐模型推荐结果时间的对比；

图3是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果召回率的对比；

图4是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果召回率的对比；

图5是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果成功率的对比；

图6是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果成功率的对比；

图7是本发明在数据集CiteULike-a上与其他标签推荐模型推荐结果nDCG的对比。

图8是本发明在数据集CiteULike-t上与其他标签推荐模型推荐结果nDCG的对比。

具体实施方式

下面结合附图说明和实际的数据集对本发明的具体实施方式进行详细的描述，以下描述的实施例仅仅是示例性的，只用于更好的解释本发明，便于本发明领域内的研究人员更好的理解本发明的实施例，不能理解为对本发明的限制。

1数据集介绍

本发明具体实施例使用的两个数据集均采自于CiteULike，一个称之为CiteULike-a，另一个为CiteULike-t。其中两个数据集相对于论文-标签矩阵的非零元比率分别为0.00145和0.00104，这说明数据集CiteULike-t比CiteULike-a更加稀疏。本发明的具体实施例最终得到的数据集具体描述如表1所示。

表一数据集简介

数据集	用户	论文	用户-论文对	论文-标签对
					CiteULike-a	5551	16980	20498	181665
CiteULike-t	7947	25975	134860	225415

2数据预处理

数据预处理部分包括数据去噪处理、文本信息向量化和相似度计算三部分内容。

1)数据去噪处理

将两个数据集中使用次数少于5次的标签剔除，减少噪音数据，降低数据维度。最终两个数据集分别得到7386和8311个标签信息。

2)文本信息向量化

对于论文的内容信息，去除其中的标点和停用词，根据计算得到的TF-IDF(termfrequency–inverse document frequency)值，分别选取前8000和20000个高频词组成词汇表。根据得到的词汇表，向量化论文内容信息。例如“90 1:6 20:3 7000:1…”这表示论文词汇向量化的文本信息格式，其中“90”表示该论文中总共含有90个词汇表中的词汇，“1:6”代表编号为“1”的词汇在该篇论文中出现了6次。

3)相似度计算

根据论文词汇向量化的结果，采用余弦相似度的计算方式，对其进行计算，得到各个论文的余弦值。

3模型训练

随机对每个标签选取5篇论文组成训练集，其余的部分作为测试集。对于训练集，将其均分为5份，轮流选取1份作为测试集，剩余的4份为训练集进行5折交叉验证，用于确定模型的最优参数。选取性能最优的参数在测试集上进行预测得到预测结果。重复实验5次，求其平均值，作为对算法性能的估计。

4评价指标

推荐算法的性能一般采用召回率进行评测，召回率的值越大，算法的性能越好。召回率的计算公式如下：

由于用户在使用标签标注论文的时候，不知道标签的存在或者不是使用已知存在的标签，都可能导致预测过程中的零项，因此准确率不能应用于标签推荐上。这里本发明采用另一个评测指标，称之为success@N。它被定义为在前N个推荐的标签中存在一个真实存在于论文中的概率。当对某篇论文推荐N个标签中存在一个正确的标签，那么success@N＝1，反之为0。success@N定义为：

另外，nDCG可以用于评测推荐结果排序的好坏。在此，本发明还使用了nDCG来评测最终标签推荐结果的排序质量。nDCG@N定义为：

其中rel_i是一个二进制数值，表示推荐列表中第ith位置的标签是否正确。IDCG是以分子形式计算得到的最优得分。

最后本发明统计所有的recall@N、success@N和nDCG@N，并分别计算平均值作为模型的最后预测结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定的思想和确定的范围内，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多源异构信息图模型的学术论文标签推荐方法，该方法包括相关数据的预处理部分、多源异构信息图模型的构造部分以及学术论文标签推荐方法的实现部分；具体步骤如下：

步骤a.对数据集进行初始化操作，去除标签噪音数据；

步骤b.将学术论文的文本信息进行向量化处理；

步骤c.根据论文的文本向量计算论文之间的相似度；

步骤d.根据数据中用户收藏论文关系、论文标签关系、论文引用关系和相似度关系构建多源异构信息图；具体包括

(d1)根据数据集中含有的信息，将用户、论文以及标签看做图中的三种顶点，用于构建多源异构信息图；

(d2)根据论文中含有标签信息的关系，构建论文顶点集与标签顶点集之间边的关系；如果论文A中含有标签T，则在多源异构信息图中对应的论文A顶点和标签T顶点之间存在边，否则不存在边；如公式(2)所示：

(d3)根据论文之间的引用关系，加强论文子图内部关系，构建论文-论文边关系；如果论文A引用了论文B，则在图中对应论文A顶点和论文B顶点之间存在边，否则不存在边；如公式(3)所示：

(d4)根据论文文本内容相似性的关系，进一步加强论文子图内部关系，构建论文之间边的关系；使用K近邻算法找出论文前K个最邻近的论文，然后在图中给对应顶点之间添加一条边；如公式(4)所示：

其中论文A_i和A_j分别表示数据集中第i篇和第j篇论文；

(d5)根据用户查阅论文的关系，将用户的信息添加进图中，如果用户U查阅过论文A，则在图中对应的用户U顶点和论文A顶点之间存在边，否则不存在边；如公式(5)所示：

步骤e.在多源异构信息图模型上，运用重启动的随机游走算法，计算各个节点之间的结构相关性。

2.根据权利要求1所述的标签推荐方法，其特征是步骤a，具体包括将数据集中标签出现次数少于5次的标签移除，去除噪音数据，降低数据维度，重新构建论文-标签隶属关系对。

3.根据权利要求1所述的标签推荐方法，其特征是步骤b，具体包括：

(b1)提取数据集中论文的标题和摘要信息，用于构建论文的内容文本信息；

(b2)去除论文文本信息中的标点符号以及停用词，然后计算其TF-IDF值，获取前N项词汇组成词汇表，并对词汇表中的每个词汇进行编号；

(b3)根据得到的词汇表，统计每篇论文的词汇信息，组成论文的一个文本向量，其中每一行的行号对应于数据集中论文的编号，每行是论文词汇向量化的结果，其中每一项表示成词汇编号、词频的形式。

4.根据权利要求1所述的推荐方法，其特征是步骤c，具体包括根据论文的文本向量，

使用余弦相似度来计算论文之间的相似关系；如公式(1)所示：

。

5.根据权利要求1所述的标签推荐方法，其特征是步骤e，具体包括：

(e1)根据多源异构信息图模型，得到其邻接矩阵M，然后对邻接矩阵M进行正则化得到标准化后的矩阵

(e2)在多源异构信息图模型上运用重启动的随机游走算法，计算图中各个节点之间的结构相关性；如公式(6)所示：

其中c是返回出发点的概率，是重启动向量，表示初始状态；重启动向量是第i’维为1的单位向量；

(e3)多次迭代公式(6)，经过有限次的随机游走过程，图中各个顶点之间的概率达到平稳的状态，再次迭代不会改变图中的概率分布；此时，图中每个顶点的概率值看为该顶点与出发点的相似度；

(e4)对稳定的概率分布进行排序，找出与目标顶点结构相关的前N个候选顶点。