CN110580289B

CN110580289B - 一种基于堆叠自动编码器和引文网络的科技论文分类方法

Info

Publication number: CN110580289B
Application number: CN201910801530.9A
Authority: CN
Inventors: 杨旭华; 高斯城
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2021-10-29
Anticipated expiration: 2039-08-28
Also published as: CN110580289A

Abstract

一种基于堆叠自动编码器和引文网络的科技论文分类方法，根据现有科技论文数据构建引文网络邻接矩阵与标签向量矩阵，计算概率转移矩阵和共现概率矩阵；构建基于堆叠自动编码器和长短期记忆网络的科技论文分类模型；用共现概率矩阵以及标签向量矩阵训练堆叠自动编码器和长短期记忆网络；用已训练的模型来预测新的论文的分类结果。本发明考虑论文之间的引用关系，有效提取构造的引文网络中各节点之间的内在关系，将其映射到低维的嵌入向量空间中，并用长短期记忆网络来获取类别特征信息，实现了对新论文的类别的精准预测。

Description

一种基于堆叠自动编码器和引文网络的科技论文分类方法

技术领域

本发明涉及网络科学和机器学习领域，特别是指一种基于堆叠自动编码器和引文网络的科技论文分类方法。

背景技术

随着社会的发展，学术论文的质量和数量在人才的培养与资源的分配过程中起着不可替代的作用。科研工作者往往在做特定领域的钻研时，会参考前人在此领域发表的文章和成果来实现突破与改良。在即将发表的论文中，参考文献是一大重点，说明论文所做工作的依据与由来。因此，论文与论文之间的引用关系构成了庞大而又复杂的引文网络。随着时间的推移，引文网络的规模会越来越大，造成的结果是对于论文的管理会愈加困难，由此对科技论文的分类管理提出了新的要求。

随着自然语言处理和网络科学的发展，涌现出一大批网络表示学习方法。其主要目的是学习网络在低维的向量空间中的表示。以DeepWalk为代表的网络嵌入方法将节点与词进行类比，将随机游走得到的节点序列类比为句子，然后使用自然语言处理中的skip-gram方法来处理节点序列得到节点的嵌入向量表示。Line和Node2vec将网络节点的邻居信息作为一阶临近度，网络节点之间的共同邻居信息称作二阶临近度，再使用基于负采样的skip-gram模型来保持网络节点的一阶和二阶临近度。

然而，以上这些采样方式只能获取一部分节点序列。而且，浅层模型无法获取非线性的引文网络信息。由于深度学习的技术在图像分类、视频处理、语音识别和自然语言处理等领域应用广泛且具有较好的效果，因此堆叠自动编码器这类高度非线性的深度学习模型可以有效获取引文网络的特征信息。

发明内容

为了克服现有分类的方法难以对科技论文的类别进行有效划分，本发明基于深度学习提出了一种基于堆叠自动编码器和引文网络的科技论文分类方法。

本发明解决其技术问题所采用的技术方案如下：

一种基于堆叠自动编码器和引文网络的科技论文分类方法，包括如下步骤：

步骤一：根据现有科技论文数据，一篇论文用一个节点表示，两篇论文之间如果有引用关系，则这两篇论文的相应节点之间有一条连边，由此构造引文网络G(V,E)，V是节点集合，E是边集合，节点总数为N，其邻接矩阵为X；

步骤二：根据具有标签的科技论文数据构造标签向量矩阵，引文网络中每个节点有一个标签，标签类别总数为M，则每个节点的标签向量皆为长度为M的1-hot一维向量，构成了N×M的标签向量矩阵

其中y_i为第i个节点的标签向量，2≤M≤N；

步骤三：对邻接矩阵X进行Q步概率转移，得到概率转移矩阵

其中P_k＝P_k- ₁X，P₀是N×N的单位阵，其中Q为一个大于1的整数；

步骤四：计算引文网络的共现概率矩阵

其中节点i与节点j之间的共现概率为

其中|D|＝∑_i∑_jr_i,j，r_i,j∈R；

步骤五：构建堆叠自动编码器，堆叠自动编码器由一个编码器和一个解码器串联组成，编码器的输入为引文网络的共现概率矩阵S，输出为引文网络的N×d的嵌入表示向量矩阵E_N×d，解码器的输入为编码器的输出，解码器的输出为N×N的重构概率矩阵

其中2≤d≤N；

步骤六：构建长短期记忆网络，其输入是编码器输出的嵌入表示向量矩阵E_N×d，输出为softmax的分类结果矩阵

为N×M的矩阵，表示为

其中

为第i个节点的M维分类向量，表示相应第i篇论文的分类结果；

步骤七：训练模型，首先训练堆叠自动编码器，训练目标是降低编码器的输入引文网络的共现概率矩阵S和解码器的输出重构概率矩阵

之间的平方误差；训练长短期记忆网络，训练得到分类结果

与论文标签向量矩阵Y进行比较，训练目标是降低分类结果

与论文标签向量矩阵Y之间的交叉熵误差；训练完毕即获得基于堆叠自动编码器和长短期记忆网络的科技论文分类模型；

步骤八：对未分类的新的论文数据，构造相应的新的引文网络邻接矩阵X′、概率转移矩阵R′和共现概率矩阵S′，对训练好的基于堆叠自动编码器和长短期记忆网络的科技论文分类模型输入S′，得到输出为N×M的矩阵

其中

为第i个节点的M维分类向量，表示相应第i篇论文的分类结果。

本发明的技术构思为：首先建立引文网络邻接矩阵与标签向量矩阵，并计算概率转移矩阵和共现概率矩阵，接着构建一种基于堆叠自动编码器和长短期记忆网络的科技论文分类模型，来提高分类精度。

本发明的有益效果为：利用基于堆叠自动编码器和长短期记忆网络的科技论文分类模型分类引文网络中的论文，有助于提高分类精度。

附图说明

图1是基于堆叠自动编码器和长短期记忆网络的科技论文分类模型的结构框图。

具体实施方式

下面结合附图对本发明作进一步说明。

参照图1，一种基于堆叠自动编码器和引文网络的科技论文分类方法，包括如下步骤：