CN106844665B

CN106844665B - 一种基于引用关系分布式表达的论文推荐方法

Info

Publication number: CN106844665B
Application number: CN201710051673.3A
Authority: CN
Inventors: 田晗; 卓汉逵
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2020-05-08
Anticipated expiration: 2037-01-20
Also published as: CN106844665A

Abstract

本发明公开一种基于引用关系分布式表达的论文推荐方法。利用分布式向量来表达论文在权重引用网络当中的上下文，然后利用该向量计算论文之间的相似度，达到论文推荐的目的。之前的基于引用的论文推荐的方法，都局限于使用论文引用和被引用的论文集合的重合度，对于重合度为0的论文之间无法计算相似度。本发明通过论文之间的权重引用网络，充分利用了论文之间“间接引用”的信息，再使用矩阵分解方法，获得表达论文在引用网络中的位置的分布式向量，使用其内积作为论文之间的相似度表达。该分布式表达可以用来作为学术推荐系统的一种基准特征，能够妥善的解决现有模型存在的问题,并且能够进一步的提高相似度度量的正确性。

Description

一种基于引用关系分布式表达的论文推荐方法

技术领域

本发明涉及推荐技术领域，特别是涉及一种基于引用关系分布式表达的论文推荐方法。

背景技术

学术推荐系统作为学术服务的重要一环，已经被引入到很多学术搜索引擎系统当中，比如CiteSeerX，Google Scholar，PubMed等等。通过学术推荐系统，研究者会被推荐与其现有研究论文相关的其他论文，研究者可以检查他们引用资料的完整性，节省搜寻相关工作的人力，快速接触到自己领域的新论文。

推荐系统的本质就是为特定的用户猜测感兴趣的特定的物品并推送。根据推荐基于信息的不同，主要分为基于内容的推荐，基于协同过滤的推荐，社会化推荐和混合模型推荐。在论文的推荐系统当中，存在着一种特殊的基于引用的推荐。论文的引用表示该论文对于前人所做过的工作的系统的调研和追索，包括对其研究课题的整个历史、现状和发展趋势的一个总体的资料集合。引用支持论据有助于增加学术论文的可信度。两篇论文的引用的相似度越高，这两篇论文在课题上，内容上的相似性就越高。随着科研水平的提高，论文的数量与论文之间的引用数量也逐年呈指数式的增长，如何利用论文的引用信息来获得论文推荐的信息，成为一个令学术推荐系统研究者们愈加重视的课题。

现有的基于论文引用信息来提供推荐信息的工作，其中的代表模型有传统的引用预测模型与协同过滤模型，都局限于使用论文引用和被引用的论文集合的重合度，对于重合度为0的论文之间无法计算相似度。同时忽略了论文之间“间接引用”的可用信息。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于引用关系分布式表达的论文推荐方法。该方法利用论文之间的引用网络，以及分布式向量表达论文在引用网络中的位置，使用内积作为论文之间的相似度表达，达到论文推荐的目的。

为解决上述技术问题，本发明的技术方案如下：

一种基于引用关系分布式表达的论文推荐方法，包括以下步骤：

步骤1：基于所有待研究论文生成ID字典，即为每篇论文赋予一个唯一的索引键，同时利用论文的相互引用关系生成论文引用网络，并建立论文引用权重矩阵M，权重矩阵M是基于论文索引标识构建的n行n列的矩阵；

步骤2：使用最小化代价函数的方法，对权重矩阵M做矩阵分解，将矩阵 M拟合成W*T的形式，其中W是n行m列的矩阵，T是m行n列的矩阵；其中m<n，以达到降维的作用；用随机梯度下降法求出W和T矩阵；其中W的行向量与T的列向量等价地包含了每篇论文的分布式向量的表达，且互为对偶；使用W的行向量来作为分布式向量，其中第i行表示论文索引键i所代表的论文的分布式向量的表达；

步骤3：通过分布式向量之间的内积，计算出两篇论文之间的基于引用的相似度值；

步骤4：对候选论文按照计算出的相似度从大到小排序，得到作为论文推荐的排序列表。

优选的，步骤1中：获取所有待研究论文集合S，生成对应的ID字典，即为每篇论文赋予一个唯一的索引键，索引键用于标识论文，索引键值包括论文的元信息，如论文名称、作者、发表期刊，年份等。

优选的，步骤1中：使用论文引用的解析器迭代读取各篇论文的引用，与对应在集合S的其他论文建立一致性关联，并且建立无向图，其中每个节点代表论文，节点之间的连线代表两篇论文之间存在引用关系；该无向图即为建立的论文引用网络。

优选的，其中步骤1，由论文引用网络建立n行n列的连接矩阵L，其中L_ij为连接矩阵L中的第i行第j列的元素，L_ij表示论文i和论文j之间是否存在引用关系，由论文引用网络中对应两点i和j是否存在连线能够得出，当论文在引用网络中对应的两点i和j相互连接时，L_ij＝1，表示论文i和论文j之间存在引用关系，L_ij＝0 表示论文i和论文j之间不存在引用关系；根据该连接矩阵L生成转移矩阵A；其中转移矩阵A中第i行第j列的元素A_ij基于下式确定：

其中A_ij表示从节点i随机移动转移到节点j的概率值，n’表示所有待研究论文的数量；矩阵A建立起了有直接引用关系的论文的信息，在此基础上继续构建，获得间接引用的论文之间的联系，例如在论文a和论文b共同引用论文c、共同被论文d引用、论文a引用论文c，论文c引用论文b的情况下，构建论文a和论文b之间的引用关系，以丰富论文引用权重矩阵的信息；

A的t次幂A^t矩阵的值

代表从节点i出发随机移动，在第t步到达节点j的概率，设讨论

的步长范围为w时，那么计算生成矩阵

其矩阵B中的元素B_ij代表从节点i出发随机移动，在w步之内到达节点j的期望次数，其中， w为正整数；

构造论文引用权重矩阵M中的元素

α为常量，且α+min(log(B_ij))>0，即调整M中有值的各项，使之大于0，M_ij表示节点i对节点j的权重，M_ij越高，表示论文之间的联系愈紧密。

优选的，其中步骤2，使用SGD随机梯度下降法最小化代价函数

其中

表示矩阵W的第j列，

是矩阵W第i行向量的转置，是一个列向量；通过最优化该代价函数，能够使W*T拟合矩阵M； f(i,j)表示学习权重函数，表示所有节点间的关系对结果的影响程度不同，设为： f(i,j)＝M_ij。；SGD随机梯度下降法是对于J中的加和项的每一项进行迭代，计算梯度，迭代最小化代价函数；采用SGD随机梯度下降法求解该最小化代价函数的无约束最优化问题，得到解

W＝[w₀,w₁,w₂,…,w_n-1]^T。

优选的，其中步骤3：正则化矩阵W中各个节点的分布式向量，再采用公式S(i,j)＝w_i·w_j计算节点i和节点j的相似度S(i,j)的，根据向量夹角计算公式

当向量长度正则化为1时，w_i·w_j的结果越大，在节点i和j的分布式向量之间的角度就越小，两个节点对应的论文就会越相似，反之亦然。

与现有技术相比，本发明技术方案的有益效果是：本发明通过论文引用关系构建论文权重引用网络与对应矩阵表示，从而保留了论文之间“间接引用”的信息。然后，利用矩阵分解方法来获得表达论文在论文权重引用网络的上下文的分布式向量，然后利用该向量计算论文之间的相似度，达到论文推荐的目的。

附图说明

图1为基于引用关系分布式表达的论文推荐方法的流程图。

图2为发明实施例中已生成论文引用网络的简单示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明基于引用关系分布式表达的论文推荐方法的流程图。如图1所示，新推荐方法的设计如下：

S1：以所有待研究论文生成ID字典，生成论文引用网络。

对S1进一步说明：在上述技术方案中，步骤1中论文引用网络建立方式如下：生成所有待研究论文集合S之后，生成对应的ID字典。使用论文引用的解析器迭代读取各篇论文的引用，与对应在集合S的其他论文建立一致性关联。并且建立无向图，该无向图的表示方式为数据库的两两连接表形式。其中每个节点代表论文，节点之间的连线代表两篇论文之间存在引用关系。该无向图为建立的论文引用网络。

S2：建立论文引用权重矩阵；该权重表达了论文引用网络的全部内容。

对S2进一步说明：首先由论文引用网络建立连接矩阵L，其中连接矩阵L中的元素L_ij表示论文i和论文j之间是否存在引用关系，L_ij＝0或1，1表示论文i和论文j之间存在引用关系，0表示论文i和论文j之间不存在引用关系。然后根据该连接矩阵生成转移矩阵A其中转移矩阵A中第i行第j列的元素A_ij基于下式确定：

其中A_ij表示从节点i随机移动转移到节点j的概率值，n’表示所有待研究论文的数量。矩阵A建立起了有直接引用关系的论文的信息，在此基础上继续构建，获得间接引用的论文之间的联系，例如在论文a和论文b共同引用论文c、共同被论文d引用、论文a引用论文c，论文c引用论文b的情况下，构建论文a和论文b之间的引用关系，以丰富论文引用权重矩阵的信息；

其中，A的t次幂A^t矩阵的值

代表从节点i出发随机移动，在第t步到达节点j的概率，设用于讨论

的步长范围为w时的情况，那么计算生成矩阵

其矩阵B中的元素B_ij代表从节点i出发随机移动，在w步之内到达节点j的期望次数，其中，w为正整数；

构造论文引用权重矩阵M中的元素

α为常量，且α+min(log(B_ij))>0，即调整M中有值的各项，使之大于0，M_ij表示节点i对节点j的权重，M_ij越高，表示论文之间的联系愈紧密，权重矩阵M是基于论文索引标识构建的n行n列的矩阵。

S3：通过对矩阵M做矩阵分解，用随机梯度下降法求出W矩阵，使得 M＝W*T成立；其中W是n行m列的矩阵，T是m行n列的矩阵；其中m<n，以达到降维的作用；用随机梯度下降法求出W和T矩阵；其中W的行向量与T 的列向量等价地包含了每篇论文的分布式向量的表达，且互为对偶；使用W的行向量作为分布式向量，其中第i行表示论文索引键i所代表的论文的分布式向量的表达。

对S3进一步说明：使用SGD随机梯度下降法最小化代价函数

其中

表示矩阵W的第j列，

W＝[w₀,w₁,w₂,…,w_n-1]^T。

S4：通过W的行向量之间的内积，可以计算出两篇论文之间的基于引用的相似度值。

对S4进一步说明：首先正则化矩阵W中各个节点的分布式向量，再采用公式S(i,j)＝w_i·w_j计算节点i和节点j的相似度S(i,j)的，根据向量夹角计算公式

S5：对候选论文按照计算出的相似度从大到小排序，可以作为论文推荐的排序列表。

构造论文引用权重矩阵的简单实例如下：假设已生成论文引用网络如下，如图2；其中Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ分别代表论文的标号。节点之间的连接代表两篇论文之间存在引用关系。由此，可以构建连接矩阵L为：

按照连接矩阵建立起来的转移概率矩阵A为：

然后计算论文引用权重矩阵

B可以让间接连接的节点之间的引用权重大于0。B的每个行向量都代表对应的论文在引用网络中与其他论文的相互引用的情况，其中包括了直接引用的部分，以及间接引用的部分。当两个论文的对应行向量的内积越相似，就说明这两篇论文的引用情况越相似，其内容就越可能相似。接下来通过二次代价函数最小化的方式，将原矩阵拟合成M＝W*T的形式。从而对原论文引用权重矩阵M进行降维处理，获得矩阵W，其中每一行包括论文对应的分布式向量W_i，其维度为m<n。计算分布式向量之间W_i的内积，能够近似的表达了论文之间的引用相似度，乃至于内容相似度。

在本实施例中，构造论文引用权重矩阵的实例如下：提取了PubMed医学数据库中的252673篇论文，建立起对应的ID字典。使用引用提取工具对各篇论文进行迭代，抽取了9379146条引用条目，通过对比引用与论文的标题，发表日期，作者等元信息。建立起了引用和论文的一致性关联。基于此关联，构建连接矩阵 L，生成论文引用网络。按照详细步骤给出的计算方法，通过连接矩阵L计算转移概率矩阵A，然后计算引入了间接引用信息的转移矩阵

通过B 得到论文引用权重矩阵M。M中间接连接的节点之间的引用权重大于0，每个行向量都代表对应的论文在引用网络中与其他论文的相互引用的情况，其中包括了直接引用的部分，以及间接引用的部分。当两个论文的对应行向量的内积越相似，就说明这两篇论文的引用情况越相似，其内容就越可能相似。接下来通过二次代价函数最小化的方式，将原矩阵拟合成M＝W*T的形式。从而对原论文引用权重矩阵M进行降维处理，获得维度m＝500的分布式向量W_i，W_i对应于W中的每一行。分布式向量的内积，能够近似的表达了论文之间的引用相似度，乃至于内容相似度。至此，给出任意一篇论文，都可以通过对比该论文的分布式向量与其他论文分布式向量的内积的大小，按照从高到低进行排序，推荐根据引用关系最为相似的论文序列。

本发明实施例中，利用论文之间的引用网络，利用分布式向量表达论文在引用网络中的位置，使用内积作为论文之间的相似度表达，能够妥善的解决现有的基于论文引用信息的模型对于重合度为0的论文之间无法计算相似度的问题。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于引用关系分布式表达的论文推荐方法，其特征在于，包括以下步骤：

步骤2：使用最小化代价函数的方法，对权重矩阵M做矩阵分解，将矩阵M拟合成W*T的形式，其中W是n行m列的矩阵，T是m行n列的矩阵；其中m＜n，以达到降维的作用；用随机梯度下降法求出W和T矩阵；其中W的行向量与T的列向量等价地包含了每篇论文的分布式向量的表达，且互为对偶；使用W的行向量来作为分布式向量，其中第i行表示论文索引键i所代表的论文的分布式向量的表达；

2.如权利要求1所述的方法，其特征在于，步骤1中：获取所有待研究论文集合S，生成对应的ID字典，即为每篇论文赋予一个唯一的索引键，索引键用于标识论文，索引键值包括论文的元信息。

3.如权利要求2所述的方法，其特征在于，步骤1中：使用论文引用的解析器迭代读取各篇论文的引用，与对应在集合S的其他论文建立一致性关联，并且建立无向图，其中每个节点代表论文，节点之间的连线代表两篇论文之间存在引用关系；该无向图即为建立的论文引用网络。

4.如权利要求1或3所述的方法，其特征在于，其中步骤1，由论文引用网络建立n行n列的连接矩阵L，其中L_ij为连接矩阵L中的第i行第j列的元素，L_ij表示论文i和论文j之间是否存在引用关系，由论文引用网络中对应两点i和j是否存在连线能够得出，当论文在引用网络中对应的两点i和j相互连接时，L_ij＝1，表示论文i和论文j之间存在引用关系，L_ij＝0表示论文i和论文j之间不存在引用关系；根据该连接矩阵L生成转移矩阵A；其中转移矩阵A中第i行第j列的元素A_ij基于下式确定：

其中A_ij表示从节点i随机移动转移到节点j的概率值，n’表示所有待研究论文的数量；矩阵A建立起了有直接引用关系的论文的信息，在此基础上继续构建，获得间接引用的论文之间的联系；

A的t次幂At矩阵的值

的步长范围为w时，那么计算生成矩阵

其矩阵B中的元素B_ij代表从节点i出发随机移动，在w步之内到达节点j的期望次数，其中w为正整数；

构造论文引用权重矩阵M中的元素

α为常量，且α+min(log(B_ij))＞0，即调整M中有值的各项，使之大于0，M_ij表示节点i对节点j的权重，M_ij越高，表示论文之间的联系愈紧密。

5.如权利要求1所述的方法，其特征在于，其中步骤2，使用SGD随机梯度下降法最小化代价函数

其中

表示矩阵W的第j列，

是矩阵W第i行向量的转置，是一个列向量；通过最优化该代价函数，能够使W*T拟合矩阵M；f(i，j)表示学习权重函数，表示所有节点间的关系对结果的影响程度不同，设为：f(i，j)＝M_ij；SGD随机梯度下降法是对于J中的加和项的每一项进行迭代，计算梯度，迭代最小化代价函数；采用SGD随机梯度下降法求解该最小化代价函数的无约束最优化问题，得到解

W＝[w₀，w₁，w₂，...，w_n-1]^T。

6.如权利要求5所述的方法，其特征在于，其中步骤3：正则化矩阵W中各个节点的分布式向量，再采用公式S(i，j)＝w_i·w_j计算节点i和节点j的相似度S(i，j)的，根据向量夹角计算公式