CN103646099B

CN103646099B - 一种基于多层图的论文推荐方法

Info

Publication number: CN103646099B
Application number: CN201310706651.8A
Authority: CN
Inventors: 戴新宇; 潘林林; 陈家骏; 黄书剑
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-12-19
Filing date: 2013-12-19
Publication date: 2016-09-14
Anticipated expiration: 2033-12-19
Also published as: CN103646099A

Abstract

本发明提出了基于多层图的论文推荐方法，包括：步骤一，将目标论文和候选论文作为图中的节点，根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图；步骤二，使用词权重计算方法计算词在论文中的权重，剔除权重小于阈值的词，并将剩余的词作为节点，借助语义词典信息构建关键词特征图；步骤三，根据论文是否包含关键词的信息将论文图与关键词特征图进行组合；步骤四，使用基于多层图的相似度学习方法列出目标方程；步骤五，使用图的启发式搜索算法对目标函数进行优化，更新多层图中边的权重，根据最终多层图的结果进行论文推荐。本发明使得计算机能够根据使用者读过的或者标记感兴趣的目标论文。

Description

一种基于多层图的论文推荐方法

技术领域

本发明涉及一种计算机文本挖掘领域，特别是一种计算机论文推荐方法。

背景技术

随着当今世界信息量的急剧增加，以及科研工作的不断取得成果，当今的电子图书馆拥有越来越多的来自各个期刊或者会议的论文。为了更好更快地找到与自己工作相关的论文，人们对论文搜索准确性的需求越来越大。论文推荐就是根据用户的研究方向或者根据用于过往读过的论文为用户推荐一组论文。近年来，对于一个论文推荐任务，一般有三种做法：第一种是基于论文之间的引用信息，根据共同引用的论文数计算论文之间的相关性得分；第二种是基于论文的内容信息，首先把每一个文本都映射到一个高维欧几里得空间，每一维就相当于一个特征，然后为每一维特征计算一个权值，最后使用余弦公式计算向量之间的夹角，即论文之间的相似度；第三种是线性结合论文的引文信息和内容信息，分别计算基于引文信息的得分和基于内容信息的得分，最后将这两种方法的得分线性累加，计算最终的论文相似度得分。而为用户推荐与目标论文相关的论文时，并不能对论文中的词进行简单的匹配，因为论文有很多异构特征，比如：文本、引用、作者、发表期刊等信息。这些异构特征之间可能存在依赖关系，而以往的方法并没有将这些异构特征的依赖关系考虑进来。比如：有些词的表达方式虽然不一样，但是他们其实是相关的，即词与词之间存在依赖关系。表1表示了三篇论文存在的某些词，这三篇论文都是关于机器翻译的。

表1论文词的依赖关系示例

在表1中，论文v₁包含词“Statistical Machine Translation”，论文v₂包含词“Bilingual Corpora”，论文v₃包含词“Statistical Machine Translation”和“BilingualCorpora”。单纯使用关键词匹配，它们之间没有任何关系，但是从我们人的角度来看这两个都是和机器翻译相关的。如果我们考虑特征之间的依赖关系，可以更好地为用户推荐与之工作相关的论文。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于多层图的论文推荐方法。

为了解决上述技术问题，本发明公开了一种基于多层图的论文推荐方法，其特征在于，包括以下步骤：

本发明特征在于，包括以下步骤：

步骤一，将目标论文和候选论文作为图中的节点，根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图；

步骤二，使用词权重计算方法计算词在论文中的权重，剔除权重小于阈值的词，并将剩余的词作为节点，借助语义词典信息构建关键词特征图；

步骤三，根据论文是否包含关键词的信息将论文图与关键词特征图进行组合；

步骤四，使用基于多层图的相似度学习方法列出目标方程；

步骤五，使用图的启发式搜索算法(AO)对目标函数进行优化，更新多层图中边的权重，根据最终多层图的结果进行论文推荐。

本发明步骤一包括以下步骤：

步骤11，将每篇论文作为一个节点，根据目标论文和候选论文之间以及候选论文彼此之间的引用信息构建论文图G₀(V，E)，V=v₁，v₂,...，v_N，N为论文图G₀包含的节点总数，其中v_j为论文集中的第j篇论文，当论文v_i与论文v_j存在引用关系时论文v_i与论文v_j之间有边连接，i=1，2,...，N，j=1，2,...，N，则判定论文图G₀中存在一条边e_ij，反之，判定论文v_i与论文v_j之间没有边连接；从而构建论文图，并设置论文图G₀中的所有边的初始权重等于1。这里构建的论文图G₀是一个无向图，比如论文图G₀中若存在一条边e_ij，那边就会存在另一条边e_ji，并且边e_ij与边e_ji拥有相同的权重。论文图G₀中的所有边的初始权重也可以使用论文内容相似度方法进行初始化。

本发明步骤二包括以下步骤：

步骤21，根据一些常用的停用词表，剔除一些比如“the”、“a”、“an”等这类意义不大的词，然后使用一元语法把论文v_j表示成特性向量的形式，v_j=u₁，u₂,...，um，其中，每一维表示一个词，m表示论文v_j包含的词的总数，u_q为论文v_j中的第q个词，q=1，2,...，m；

步骤22，根据词权重计算方法的计算公式计算步骤21中每一篇论文中词的权重：

\frac{n_{q, j}}{Σ_{p} n_{p, j}} \times \log \frac{| V |}{| {j : u_{q} &Element; v_{j}} |},

n_q，j是第q个词u_q在第j篇论文v_j中出现的次数，|V|表示目标论文和候选论文的总数，∑_pn_p，j表示论文v_j中所有词在第j篇论文v_j中出现的次数总和，p=1，2,...，m；

把论文v_j表示成如下形式：v_j=(u_1，j，u_2，j,...，u_m，j)，u_q，j表示论文v_j的第q个词的权重值；

步骤23，由于每一篇论文包含很多词，可能存在一些噪音词，从而干扰推荐结果，并且从推荐效率的角度考虑，如果将所有的词包含进来，算法的计算复杂度会很高，因此，考虑设定阈值ε，与步骤22的结果比较，当u_q，j>ε时，词u_q作为关键词保留；反之，将词u_q从论文v_j中剔除；从而最终得到论文集V的关键词集合，并对所有的权重进行归一化，归一化计算公式如下：

u_{q, j} = \frac{u_{q, j}}{Σ_{p} u_{p, j}}

u_q，j是第q个词u_q在第j篇论v_j中的权重，∑_pu_p，j表示论文v_j中所有词在第j篇论文v_j中的权重总和，p=1，2，...，m；

步骤24，根据语义词典中的词语相似度计算方法的计算公式计算步骤23中关键词之间的相似度权重sim_LC：

{sim}_{LC} = - \log \frac{shortest_path (u_{p}, u_{q})}{32},

shortest_path(u_p，u_q)表示关键词u_p和关键词u_q在语义词典中的最短路径长度，公式中的32是一个经验值；

本发明中使用的语义词典是普林斯顿大学设计的一种基于认知语言学的英语词典，该词典主要包含四种词性的英语单词，分别是动词、名词、形容词、副词。这四种词性的词各自被组织成一个同义词网络，每一同义词集合都代表一个基本的语义概念，并且这些集合中的词与词之间也由各种关系连接。四种不同词性的网络之间并无连接。因此，在构建关键词特征图G1之前，需要对步骤23中的关键词进行词性标注。

步骤25，将步骤23中的每个关键词作为一个节点，根据步骤24的结果构建关键词特征图G₁(V,E)。

本发明步骤三包括以下步骤：

步骤31，根据层连通性的计算公式计算关键词与论文之间边的权重Z：

Z_{v_{j} u_{q}} = \{\begin{matrix} 1, & if u_{q} &Element; v_{j} \\ 0, & else \end{matrix},

其中，表示关键词u_q与论文v_j之间的连通度，即关键词u_q与论文v_j之间边的初始权重，根据论文是否包含关键词的信息将步骤11的论文图G₀(V，E)与步骤25的关键词特征图G₁(V,E)组合成一个多层图。这里计算关键词与论文之间边的权重也可以使用步骤23的结果，即当论文v_j包含关键词u_q时，关键词u_q与论文v_j之间边的权重就等于归一化后词的权重。

本发明步骤四包括以下步骤：

步骤41，基于多层图的相似度学习的方法，设计目标函数：

F(W，Z)=α₀*ISC(W，W*)+α₁*IKC(Z，Z*)+α₂*KS(W，Z)+α₃*SK(Z，W)，

其中α₀、α₁、α₂和α₃都是参数，取值范围都是大于0小于1的实数，且α₀+α₁+α₂+α₃=1，一般实验中设置α₀=0.35，α₁=0.35，α₂=0.15，α₃=0.15，ISC(W，W^*)、IKC(Z，Z^*)、KS(W，Z)和SK(Z，W)计算公式如下：

ISC (W, W^{*}) = Σ_{v_{i}, v_{j} &Element; G_{0}} {(w_{v_{i}, v_{j}} - w_{v_{i}, v_{j}}^{*})}^{2},

其中，ISC(W，W^*)表示论文图G₀中论文与论文之间边的初始权重W^*对更新后论文图G₀中论文与论文之间边的权重W的约束，权重W初始为0，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，表示更新后节点v_i和节点v_j之间边的权重，表示节点v_i和节点v_j之间边的初始权重，这个函数的设置主要考虑论文图中的边的初始权重的设置也是基于一定的信息，存在部分可信度，更新后的边的权重应该与初始权重相差不大。

IKC (Z, Z^{*}) = Σ_{v_{j} &Element; G_{0}, u_{q} &Element; G_{1}} {(z_{v_{j}, u_{q}} - z_{v_{j}, u_{q}}^{*})}^{2},

其中，IKC(Z，Z^*)表示关键词特征图G₁中关键词与论文图G₀中论文之间边的初始权重Z^*对更新后关键词与论文之间边的权重Z的约束，v_j表示论文图G₀中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_j和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的初始权重，这个函数的设置主要考虑论文与关键词之间的边的初始权重的设置也是基于一定的信息，存在部分可信度，更新后的边的权重应该与初始权重相差不大。

KS (W, Z) = Σ_{v_{i}, v_{j} &Element; G_{0}} Σ_{u_{p,} u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2},

其中，KS(W，Z)表示关键词特征图G₁中关键词与论文图G₀中论文之间边的权重Z对论文图G₀中论文与论文之间边的权重的影响，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，u_p表示关键词特征图G₁中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_i和节点v_j之间边的权重，表示节点u_p和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的权重，表示节点v_i和节点u_p之间边的权重，这个函数的设置主要考虑当论文v_i与论文v_j之间的边权值很大，关键词u_p与论文v_i之间的边的权值很大，关键词u_q与论文v_j之间的边的权值也很大，那么关键词u_q与关键词u_p之间的边也应该有较大的权值。与此同时，该函数还考虑了当关键词u_q与关键词u_p之间的边权值很大，关键词u_p与论文v_i之间的边的权值很大，关键词u_q与论文v_j之间的边的权值也很大，那么论文v_i与论文v_j之间的边也应该有较大的权值。

SK (W, Z) = Σ_{v_{i}, v_{j} &Element; G_{0}} Σ_{u_{p,} u_{q} &Element; G_{1}} w_{v_{i}, v_{j}} w_{u_{p}, u_{q}} {(z_{v_{i}, u_{q}} - w_{v_{i}, u_{q}})}^{2},

其中，SK(W，Z)表示论文图G₀中论文与论文之间边的权重对关键词特征图G₁中关键词与论文图G₀中论文之间边的权重Z的影响，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，u_p表示关键词特征图G₁中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_i和节点v_j之间边的权重，表示节点u_p和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的权重，表示节点v_i和节点u_p之间边的权重，这个函数的设置主要考虑当论文v_i与论文v_j之间的边权值很大，关键词 u_q与关键词u_p之间的边的权值很大，关键词u_p与论文v_i之间的边的权值也很大，那么关键词u_q与论文v_j之间的边也应该有较大的权值。

本发明步骤五包括以下步骤：

步骤51，使用图的启发式搜索算法最小化目标函数：

目标函数中的论文图中的边求偏导，

\begin{matrix} \frac{&PartialD; F (W, Z)}{&PartialD; w_{v_{i}, v_{j}}} = 2 α_{0} (w_{v_{i}, v_{j}} - w_{v_{i}, v_{j}}^{*}) + 2 α_{2} * Σ_{u_{p}, u_{p} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{p}} (w_{v_{i}, v_{j}} - w_{u_{p} {, u}_{p}}) + α_{3} * \\ Σ_{u_{p}, u_{p} &Element; G_{1}} w_{v_{i}, v_{j}} w_{u_{p}, u_{p}} {(z_{v_{j}, u_{p}} - z_{v_{i}, u_{p}})}^{2}, \end{matrix}

令偏导等于0，计算得到论文图G₀中论文v_i与论文v_j之间边的更新后的权重：

w_{v_{i}, v_{j}} = \frac{1}{C_{1}} (α_{0} w_{v_{i}, v_{j}}^{*} + α_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} w_{u_{p}, u_{q}} z_{v_{j}, u_{q}}),

其中，C₁是一个中间量，计算如下：

C_{1} = α_{0} {+ α}_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} + \frac{α_{3}}{2} Σ_{u_{p}, u_{q} &Element; G_{1}} w_{u_{p}, u_{q}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2},

目标函数中的关键词与论文之间的边求偏导，计算得到关键词u_q与论文v_j之间边的更新后的权重：

z_{v_{j}, u_{q}} = \frac{1}{C_{2}} (α_{1} z_{v_{j}, u_{q}}^{*} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &equiv; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} z_{v_{i}, u_{p}}),

其中，C₂是一个中间量，计算如下：

C_{2} = α_{1} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} + \frac{α_{2}}{2} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} z_{v_{i}, z_{v_{i}, u_{p}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2},}

目标函数中关键词特征图中的节点与节点之间的边求偏导，计算得到关键词u_p与关键词u_q之间边的更新后的权重：

w_{u_{p}, uq} = \frac{1}{C_{3}} (2 α_{2} Σ_{v_{i}, v_{j} &Element; G_{0}} (z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} w_{v_{i}, v_{j}} + α_{3} w_{v_{i}, v_{j}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2})),

其中，C₃是一个中间量，计算如下：

C_{3} = 2 α_{2} Σ_{v_{i}, v_{j} &Element; G_{0}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}},;

返回步骤四更新目标函数，直到满足迭代终止的条件；

迭代终止的条件为：

| w_{v_{i}, v_{j}}^{t} - w_{v_{i}, v_{j}}^{t - 1} | \leq τ &ForAll; (v_{i}, v_{j}) &Element; G_{0},

其中表示第t次迭代之后节点v_i和节点v_j边的权重，第t-1次迭代之后节点v_i和节点v_j边的权重，τ是一个阈值参数取值范围都是大于0小于1的实数，G₀表示论文图；

步骤52，根据步骤51中迭代结束后的结果，在论文图G₀中为用户推荐与目标论文连接的候选论文中边的权重最高的一组论文。

有益效果：本发明有效地利用了异构特征以及同种特征之间的依赖关系更好地为用户推荐论文。通过构建多层图，不仅使用了论文之间的引用信息，还是用了论文的内容等信息。同时，基于多层图的相似度学习的方法能够很好地学习特征之间的依赖关系，增强论文之间的相似度，进而提高论文推荐的效果。

本发明对现有的基于引文信息和基于内容信息的论文推荐方法进行改善和提高，能够充分利用异构特征以及同种特征之间的依赖关系。通过构建多层图，不仅使用了论文之间的引用信息，还是用了论文的内容等信息。同时，基于多层图的相似度学习的方法能够很好地学习特征之间的依赖关系，增强论文之间的相似度，进而提高论文推荐的效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和／或其他方面的优点将会变得更加清楚。

图1是表3实验结果示意图。

图2是多层图结果示意图。

图3是语义词典的信息示意图。

图4是迭代结束后得到最终的多层图。

图5是本发明的流程图。

具体实施方式

本发明提出了一种基于多层图的论文推荐方法。既可以充分利用论文中的异构特征，又可以学习到论文中异构特征和同种特征之间的依赖关系，进而可以更好地找到与目标论文相关的论文。现有的技术中，主要使用论文的引用信息和论文的内容信息。

假设有3篇论文，分别为v₁、v₂和v₃。

首先使用向量空间模型将论文转换成空间向量然后使用词权重计算方法(tf·idf)

计算每一维词的权重。tf·idf公式如下：

\frac{n_{q, j}}{Σ_{p} n_{p, j}} \times \log \frac{| V |}{| {j : u_{q} &Element; v_{j}} |},

n_q,j是第q个词u_q在第j篇论文v_j中出现的次数，|V|表示目标论文和候选论文的总数，∑_p n_p,j表示论文v_j中所有词在第j篇论文v_j中出现的次数总和，p=1,2，...，m；

从推荐效率的角度考虑，如果将所有的词包含进来，算法的计算复杂度会很高，因此，设定阈值ε=0.2，删除权值小于ε的词，处理之后的结果如表2所示，首先根据表2中论文之间的引用关系，论文v₁引用论文v₂，节点v₁与v₂之间有一条边，论文v₂引用论文v₃，节点v₂与v₃之间有一条边，从而构建了论文图G₀。

表2表示3篇论文的引用信息和内容信息

根据语义词典的信息，构建关键词特征图G₁。

其中语义词典的信息如图3所示，词以树形结构存储，词之间是一种上下位的关系。同一棵树上的词之间有一定的相似度。比如词“Car”到词“Cycle”最短需要经过4条路径，那么它们之间的相似度为：

{sim}_{LC} = - \log \frac{shortes t_{path (' Car',' Cycle')}}{2 W} = - \log \frac{4}{32} = 0.90

根据语义词典信息发现关键词u₂与u₄存在联系，所以节点u₂与u₄之间存在一条边，从而构建关键词特征图G₁。

最后根据论文是否包含关键词的信息，根据表2，论文v₁包含关键词u₂，论文v₂包含关键词u₁，论文v₃包含关键词u₃与u₄，所以节点v₁与u₂之间存在一条边，节点v₂与u₁之间存在一条边，节点v₃与u₃之间存在一条边，节点v₃与u₄之间存在一条边，多层图结果如图2所示。

基于多层图的相似度学习的方法，列出目标方程：

F(W，Z)=α₀*ISC(W，W^*)+α₁*IKC(Z，Z^*)

+α₂*KS(W，Z)+α₃*SK(Z，W)

这里α₀+α₁+α₂+α₃=1，实验中设置α₀=0.35，α₁=0.35，α₂=0.15，α₃=0.15，其中ISC(W，W^*)、IKC(Z，Z^*)、KS(W，Z)和SK(W，Z)的定义如下：

ISC (W, W^{*}) = \underset{v_{i}, v_{j} &Element; G_{0}}{Σ} {(w_{v_{i}, v_{j}} - w_{v_{i}, v_{j}}^{*})}^{2}

IKC (Z, Z^{*}) = \underset{v_{j} &Element; G_{0}, u_{q} &Element; G_{1}}{Σ} {(z_{v_{j}, u_{p}} - z_{v_{j}, u_{q}}^{*})}^{2}

KS (W, Z) = \underset{v_{i}, v_{j} &Element; G_{0}}{Σ} \underset{u_{p}, u_{q} &Element; G_{1}}{Σ} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2}

SK (W, Z) = \underset{v_{i}, v_{j} &Element; G_{0}}{Σ} \underset{u_{p}, u_{q} &Element; G_{1}}{Σ} w_{v_{i}, v_{j}} w_{u_{p}, u_{q}} {(z_{v_{i}, u_{q}} - z_{v_{i}, u_{p}})}^{2}

最后，使用图的启发式搜索算法对目标函数中的边进行更新。

目标函数中的论文与论文之间的边求求偏导，计算得到论文v_i与论文v_j之间边的更新后的权重：

w_{v_{i}, v_{j}} = \frac{1}{C_{1}} (α_{0} w_{v_{i}, v_{j}}^{*} + α_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} w_{u_{p}, u_{q}} z_{v_{j}, u_{q}}),

其中，C₁是一个中间量，计算如下：

C_{1} = α_{0} {+ α}_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} + \frac{α_{3}}{2} Σ_{u_{p}, u_{q} &Element; G_{1}} w_{u_{p}, u_{q}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2},

z_{v_{j}, u_{q}} = \frac{1}{C_{2}} (α_{1} z_{v_{j}, u_{q}}^{*} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &equiv; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} z_{v_{i}, u_{p}}),

其中，C₂是一个中间量，计算如下：

C_{2} = α_{1} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} + \frac{α_{2}}{2} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} z_{v_{i}, z_{v_{i}, u_{p}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2},}

w_{u_{p}, uq} = \frac{1}{C_{3}} (2 α_{2} Σ_{v_{i}, v_{j} &Element; G_{0}} (z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} w_{v_{i}, v_{j}} + α_{3} w_{v_{i}, v_{j}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2})),

其中，C₃是一个中间量，计算如下：

C_{3} = 2 α_{2} Σ_{v_{i}, v_{j}} &Element; G_{0} z_{v_{i}, u_{p}} z_{v_{j}, u_{p}};

更新目标函数，直到满足迭代终止的条件；

迭代终止的条件为：

| W_{v_{i}, v_{j}}^{t} - W_{v_{i}, v_{j}}^{t - 1} | \leq τ &ForAll; (v_{i}, v_{j}) &Element; G_{0},

其中表示第t次迭代之后节点v_i和节点v_j边的权重，第t-1次迭代之后节点v_i和节点v_j边的权重，τ是一个阈值参数取值范围都是大于0小于1的实数，G₀表示论文图。迭代结束后得到最终的多层图，如图4所示，发现图中的边发生了变化，并且边上的权重也发生了变化。根据图4的结果为研究者推荐与目标论文相关性得分最高的一组论文。

实施例：

本发明所用的算法全部由python语言编写实现。实验采用的机型为：Intel(R)Core(TM)i3-3220处理器，主频为3.30G HZ，内存为4G。

更具体地说，如图5所示，本发明运行如下：

1.构建论文图：将目标论文和候选论文作为图中的节点，根据目标论文和候选论文之间以及候选论文彼此之间的引用关系构建论文图。

2.构建关键词图：使用词权重计算方法计算论文中词的权重，剔除权重小于阈值的词，并将剩余的词作为关键词，每个词作为一个节点，借助语义词典，信息构建关键词特征图G₁(V，E)。

3.构造多层图：根据论文是否包含关键词的信息将论文图与关键词特征图进行组合。

4.目标方程：利用基于多层图的相似度学习列出目标方程。

5.求解目标方程：使用图的启发式搜索算法(AO)对目标函数进行优化多层图中边的权重，使用最终多层图进行论文推荐。

为了验证本发明的有效性，本发明选择六种方法作为对比，基于引文信息的方法：共同引用论文(Co-coupling)，共同被论文引用(Co-citation)，共同引用与论文频率倒数积(Common Citation×Inverse Document Frequency，CCIDF)和全局关联强度(GlobalRelation Strength，GRS)；基于内容信息的方法：链接分析算法(HITS)；线性结合引文信息和内容信息的方法(Linear Combination)。

实验数据准备如下：数据集由两部分组成：一部分是目标论文集，目标论文集包含15篇论文，这些论文表示研究者已经读过的论文；另一部分是候选论文集，候选论文集包含597篇论文，这些论文发表在ACL 2000-2006，在候选论文集中寻找与输入的目标论文集相关性最高的一组论文。

可以看出本发明的方法在实验上的推荐性能都是最好的。和对比的几种方法比较，分别有不同程度的提升。为了方便对比，实验结果采用信息检索中比较常用的两种评价指标。一种是归一化累计获得折扣(Normalized Discounted Cumulative Gain，NDCG)，另一种是平均倒数排名(Mean Reciprocal Rank，MRR)。与此同时还使用NDCG对推荐前5、10、20、30篇论文的实验进行评估。

表3实验结果

图1为实验结果，实验结果表明使用NDCG的评估方法对推荐前5、10、20、30篇论文的实验结果进行评估，基于多层图的方法均取得最好的实验结果。

本发明提供了一种基于多层图的论文推荐方法的思路，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式。在具体实验中，即使是使用不同的方法计算初始权重，也不会对实验结果造成影响。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于多层图的论文推荐方法，其特征在于，包括以下五个步骤：

步骤四，使用基于多层图的相似度学习方法列出目标方程；

步骤五，使用图的启发式搜索算法对目标函数进行优化，更新多层图中边的权重，根据最终多层图的结果进行论文推荐；

步骤一包括以下步骤：

步骤11，将每篇论文作为一个节点，根据目标论文和候选论文之间以及候选论文彼此之间的引用信息构建论文图G₀(V,E)，V＝v₁,v₂,…,v_N，N为论文图G₀包含的节点总数，其中v_j为论文集中的第j篇论文，当论文v_i与论文v_j存在引用关系时论文v_i与论文v_j之间有边连接，i＝1,2,…,N，j＝1,2,…,N，则判定论文图G₀中存在一条边e_ij，反之，判定论文v_i与论文v_j之间没有边连接；从而构建论文图，并设置论文图G₀中的所有边的初始权重等于1；

步骤二包括以下步骤：

步骤21，使用一元语法把论文v_j表示成特性向量的形式，v_j＝u₁,u₂,…,u_m，其中，每一维表示一个词，m表示论文v_j包含的词的总数，u_q为论文v_j中的第q个词，q＝1,2,…,m；

\frac{n_{q, j}}{Σ_{p} n_{p, j}} \times \log \frac{| V |}{| {j : u_{q} &Element; v_{j}} |},

n_q,j是第q个词u_q在第j篇论文v_j中出现的次数，|V|表示目标论文和候选论文的总数，∑_pn_p,j表示论文v_j中所有词在第j篇论文v_j中出现的次数总和，p＝1,2,…,m；

把论文v_j表示成如下形式：v_j＝(u_1,j,u_2,j,…,u_m,j)，u_q,j表示论文v_j的第q个词的权重值；

步骤23，设定阈值ε，与步骤22的结果比较，当u_q,j＞ε时，词u_q作为关键词保留；反之，将词u_q从论文v_j中剔除；从而最终得到论文集V的关键词集合，并对所有的权重进行归一化；

{sim}_{L C} = - \log \frac{s h o r t e s_p a t h (u_{p}, u_{q})}{32},

shortest_path(u_p,u_q)表示关键词u_p和关键词u_q在语义词典中的最短路径长度；

2.根据权利要求1中所述的一种基于多层图的论文推荐方法，其特征在于，步骤三包括以下步骤：

Z_{v_{j} u_{q}} = \{\begin{matrix} 1, & i f u_{q} &Element; v_{j} \\ 0, & e l s e \end{matrix},

其中，表示关键词u_q与论文v_j之间的连通度，即关键词u_q与论文v_j之间边的初始权重，根据论文是否包含关键词的信息将步骤11的论文图G₀(V,E)与步骤25的关键词特征图G₁(V,E)组合成一个多层图。

3.根据权利要求2中所描述的一种基于多层图的论文推荐方法，其特征在于，步骤四包括以下步骤：

步骤41，基于多层图的相似度学习的方法，设计目标函数：

F(W,Z)＝α₀*ISC(W,W^*)+α₁*IKC(Z,Z^*)+α₂*KS(W,Z)+α₃*SK(Z,W)，

其中α₀、α₁、α₂和α₃都是参数，取值范围都是大于0小于1的实数，且α₀+α₁+α₂+α₃＝1，ISC(W,W^*)、IKC(Z,Z^*)、KS(W,Z)和SK(Z,W)计算公式如下：

I S C (W, W^{*}) = Σ_{v_{i}, v_{j} &Element; G_{0}} {(w_{v_{i}, v_{j}} - w_{v_{i}, v_{j}}^{*})}^{2},

其中，ISC(W,W^*)表示论文图G₀中论文与论文之间边的初始权重W^*对更新后论文图G₀中论文与论文之间边的权重W的约束，权重W初始为0，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，表示更新后节点v_i和节点v_j之间边的权重，表示节点v_i和节点v_j之间边的初始权重；

I K C (Z, Z^{*}) = Σ_{v_{j} &Element; G_{0}, u_{q} &Element; G_{1}} {(z_{v_{j}, u_{q}} - z_{v_{j}, u_{q}}^{*})}^{2},

其中，IKC(Z,Z^*)表示关键词特征图G₁中关键词与论文图G₀中论文之间边的初始权重Z^*对更新后关键词与论文之间边的权重Z的约束，v_j表示论文图G₀中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_j和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的初始权重；

K S (W, Z) = Σ_{v_{i}, v_{j} &Element; G_{0}} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2},

其中，KS(W,Z)表示关键词特征图G₁中关键词与论文图G₀中论文之间边的权重Z对论文图G₀中论文与论文之间边的权重的影响，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，u_p表示关键词特征图G₁中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_i和节点v_j之间边的权重，表示节点u_p和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的权重，表示节点v_i和节点u_p之间边的权重；

S K (W, Z) = Σ_{v_{i}, v_{j} &Element; G_{0}} Σ_{u_{p}, u_{q} &Element; G_{1}} w_{v_{i}, v_{j}} w_{u_{p}, u_{q}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2},

其中，SK(W,Z)表示论文图G₀中论文与论文之间边的权重对关键词特征图G₁中关键词与论文图G₀中论文之间边的权重Z的影响，v_i表示论文图G₀中的一个节点，v_j表示论文图G₀中的另一个节点，u_p表示关键词特征图G₁中的一个节点，u_q表示关键词特征图G₁中的另一个节点，表示节点v_i和节点v_j之间边的权重，表示节点u_p和节点u_q之间边的权重，表示节点v_j和节点u_q之间边的权重，表示节点v_i和节点u_p之间边的权重。

4.根据权利要求3中所描述的一种基于多层图的论文推荐方法，其特征在于，步骤五包括以下步骤：

步骤51，使用图的启发式搜索算法最小化目标函数：

目标函数中的论文图中的边求偏导，

\begin{matrix} \frac{\partial F (W, Z)}{\partial w_{v_{i}, v_{j}}} =2 α_{0} (w_{v_{i}, v_{j}} - w_{v_{i}, v_{j}}^{*}) + 2 α_{2} * Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} (w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}}) + α_{3} * \\ Σ_{u_{p}, u_{q} &Element; G_{1}} w_{v_{i}, v_{j}} w_{u_{p}, u_{q}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2} \end{matrix},

w_{v_{i}, v_{j}} = \frac{1}{C_{1}} (α_{0} w_{v_{i}, v_{j}}^{*} + α_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} w_{u_{p}, u_{q}} z_{v_{j}, u_{q}}),

其中，C₁是一个中间量，计算如下：

C_{1} = α_{0} + α_{2} Σ_{u_{p}, u_{q} &Element; G_{1}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} + \frac{α_{3}}{2} Σ_{u_{p}, u_{q} &Element; G_{1}} w_{u_{p}, u_{q}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2},

z_{v_{j}, u_{q}} = \frac{1}{C_{2}} (α_{1} z_{v_{j}, u_{q}}^{*} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} z_{v_{i}, u_{p}}),

其中，C₂是一个中间量，计算如下：

C_{2} = α_{1} + α_{3} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} w_{v_{i}, u_{p}} w_{v_{j}, v_{i}} + \frac{α_{2}}{2} Σ_{v_{i} &Element; G_{0}} Σ_{u_{p} &Element; G_{1}} z_{v_{i}, u_{p}} {(w_{v_{i}, v_{j}} - w_{u_{p}, u_{q}})}^{2},

w_{u_{p}, u_{q}} = \frac{1}{C_{3}} (2 α_{2} Σ_{v_{i}, v_{j} &Element; G_{0}} (z_{v_{i}, u_{p}} z_{v_{j}, u_{q}} w_{v_{i}, v_{j}} + α_{3} w_{v_{i}, v_{j}} {(z_{v_{j}, u_{q}} - z_{v_{i}, u_{p}})}^{2})),

其中，C₃是一个中间量，计算如下：

C_{3} = 2 α_{2} Σ_{v_{i}, v_{j} &Element; G_{0}} z_{v_{i}, u_{p}} z_{v_{j}, u_{q}};

返回步骤四更新目标函数，直到满足迭代终止的条件；

迭代终止的条件为：

| w_{v_{i}, v_{j}}^{t} - w_{v_{i}, v_{j}}^{t - 1} | \leq τ &ForAll; (v_{i}, v_{j}) &Element; G_{0},