CN112231476A

CN112231476A - 一种改进的图神经网络科技文献大数据分类方法

Info

Publication number: CN112231476A
Application number: CN202011108074.9A
Authority: CN
Inventors: 张晓丹; 梁冰
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-15
Anticipated expiration: 2040-10-14
Also published as: CN112231476B

Abstract

本发明涉及一种改进的图神经网络科技文献大数据分类方法，属于大数据文献挖掘技术领域。该方法包括：步骤1，构建包括节点和边的文献拓扑关系图；步骤2，将步骤1构建的拓扑关系图转换为拓扑矩阵；步骤3，采用马尔科夫链对步骤1中的节点进行采样，得到采样后节点，并将采样后节点分配到不同的层级上；步骤4：对不同层级的节点分别进行特征降维及卷积，得到降维后的特征；步骤5：将步骤4得到特征输入全连接层并得到全连接层的输出矩阵M_DA；步骤6：将步骤5得到的全连接层输出矩阵M_DA输入到分类层进行分类并输出分类结果。所述方法可提升分类的准确率，解决了图神经网络GCN模型存在的特征灾难问题，有效提高分类效率。

Description

一种改进的图神经网络科技文献大数据分类方法

技术领域

本发明涉及一种科技文献大数据分类方法，特别涉及一种改进的图神经网络科技文献大数据分类方法，属于大数据文献挖掘技术领域。

背景技术

科技文献大数据挖掘是目前数据挖掘领域研究的热点问题，如何对科技文献大数据实现准确高效地分类是这一领域研究的关键问题之一。深度学习是近年来新兴起来的大数据挖掘方法，在解决文献大数据分类方面取得了一定的进展。目前常用的文献大数据深度学习方法有：Word Embeddings、卷积神经网络CNN和LSTM等，这些方法虽然取得了一定的分类成果，但也有各自的局限。Word Embeddings方法虽然进行了优化和改进，但对于处理连续性的问题具有局限性，CNN方法只能解决输入数据符合正定性矩阵的问题，LSTM方法对短文献的分类问题更有效果。

图神经网络方法是近两年发展起来的一种新的解决图形分类的模型，是目前深度学习领域研究的热点之一，具有处理不规则矩阵的功能，弥补了CNN模型的局限。该模型对构建的拓扑关系图进行图卷积运算，获取特征从而实现分类。已在视觉发现、机器翻译等领域获得了很好的分类效果。但是其直推式的分类原理导致分类效率低下。

拓扑关系图作为图神经网络的输入，因此不同的拓扑关系图会导致不同的分类结果。目前已有的图神经网络文献分类方法的拓扑关系图主要有基于文献构建的拓扑关系图、基于句子构建的拓扑关系图以及基于文献与抽取词的拓扑关系图。其中基于文献与抽取词构建的拓扑关系图的方法分类准确率高，但由于GCN是直推式的图神经网络模型，因此在分类时存在重新训练的问题，无法保证具有实时性要求的分类任务。同时，在多层卷积过程中，由于对输入数据高度依赖，使得需要处理的数据维度剧增，过高的数据维度会造成维度灾难,影响分类性能。本发明主要针对这一图神经网络分类模型存在的效率及准确率的问题提出了新的分类方法。

发明内容

本发明的目的是为解决科技文献大数据分类准确率及效率问题，提出了一种改进的图神经网络科技文献大数据分类方法，该方法从文献中抽取关键词和句子，并以文献、句子及关键词构建拓扑关系图，利用马尔科夫链采样方法对每一层节点进行采样，再利用特征多级降维方法实现特征降维，最后采用归纳式推理的方式实现文献分类，所述方法能保证期刊文献大数据分类准确率的前提下，有效提高分类效率。

本发明是通过以下技术方案实现的。

所述科技文献大数据分类方法，包括以下步骤：

步骤1，构建包括节点和边的文献拓扑关系图，具体包括如下子步骤：

步骤1.1从文献中抽取并获得关键词和句子；

步骤1.2将步骤1.1从文献中抽取的关键词及句子与文献组成节点，建立节点间的关系；

其中，节点包括文献、句子和关键词；文献由文献的标题、文献关键词及摘要组成，句子为由文献摘要中提取的具有语序特征的句子，关键词为文献关键词及由文献摘要中提取的关键词共同构成；

节点间的关系，包括：文献和句子、文献和关键词、句子和关键词、句子和句子以及关键词和关键词间的关系；

步骤1.3将步骤1.2建立的节点间关系作为边，构建文献拓扑关系图；

步骤2，将步骤1构建的拓扑关系图转换为拓扑矩阵；

其中，拓扑矩阵为二维矩阵，该拓扑矩阵中的向量分别为文献、句子和关键词；矩阵节点为向量之间的关系值；

步骤3，采用马尔科夫链对步骤1中的节点进行采样，得到采样后节点，并将采样后节点分配到不同的层级上；

步骤4，对不同层级的节点分别进行特征降维及卷积，得到降维后特征，再经全连接层得到全连接层输出矩阵，具体为：

步骤4.1设定降维变量D＝1；

步骤4.2对拓扑矩阵中的第D层进行全局采样，获得采样后的样本矩阵X；

步骤4.3对样本矩阵X进行第D级降维，输出第D级降维后的特征数据，并将该特征数据组成矩阵M_D；

步骤4.4将由步骤4.3获得的矩阵M_D输入卷积层进行D级卷积，得到卷积结果C_D；

步骤4.5判断误差是否在所设阈值范围内或判断D是否等于卷积层数，若是，保存当前卷积结果C_D并跳至步骤4.6，否则，将D加1，跳至步骤4.2；

步骤4.6将当前卷积结果C_D对应拓扑矩阵中的第D层输入到全连接层，得到全连接层输出矩阵M_DA；

步骤5，将步骤4得到的全连接层输出矩阵M_DA输入到分类层；

步骤6，进行分类，得到分类结果并输出。

有益效果

本发明所述的一种改进的图神经网络科技文献大数据深度学习分类方法，与现有方法相比，具有如下有益效果：

所述方法可提升分类的准确率，同时，解决了图神经网络GCN模型存在的特征灾难问题，有效提高分类效率。

附图说明

图1是本发明一种改进的图神经网络科技文献大数据深度学习分类方法具体实施时步骤1构建的科技文献拓扑关系图；

图2是本发明一种改进的图神经网络科技文献大数据深度学习分类方法构建的科技文献分类模型示意图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

采用NSTL文献外文现刊数据库中2019年3月-5月的文献数据库做分类实施。该文献数据库中含有文献18969篇。以其中一篇科技文献处理为例。文献名称：WashingtonInitiative Promotes Low-income Solar Installations，文献摘要：How can solarenergy job training in low-income communities help strengthen the cleanenergy economy？During today's OnPoint,Greg Dotson,vice president for energypolicy at the Center for American Progress,and Erica Mackie,co-founder andCEO at GRID Alternatives,discuss a new program launched in Washington,D.C.,focused on expanding solar installations and job training to low-incomecommunities.They address the policies that could expand the program to themainstream and explain the benefits of solar energy to rural and low-income，文献关键词：Installations；on-the-job；training；low income；EQUIPMENT；Washington；COUNCIL ON ENVIRONMENTAL QUALITY。利用LSTM方法从摘要中抽取到的句子为：How cansolar energy job training in low-income communities help strengthen the cleanenergy economy；focused on expanding solar installations and job training tolow-income communities；They address the policies that could expand theprogram to the mainstream and explain the benefits of solar energy to ruraland low-income。利用中科院的分词软件对文献摘要进行分词得到的关键词有：solarenergy，job training，low-income communities，strengthen，economy等100个词。

拓扑关系图的节点由文献的标题、摘要关键词、从摘要中抽取出来的句子及文献关键词和经过分词得到的关键词组成。边为不同节点之间的关系。在本实施例中，节点有66091个，边有13021个，文献有20000个，句子有8878个，关键词有37213，类别有5类。从表一的实验结果可以看出，在NSTL语料库上，本发明提出的方法可以提高至少0.02的准确率，且推理效率比其他方法高。因此可以看出，本发明方法可以解决图神经网络GCN模型存在的特征灾难问题，有效提高分类效率，能够得到准确高效的分类结果。

具体步骤如下：

步骤1.1从文献中抽取并获得关键词和句子。采用LSTM抽取句子，对文献的摘要、标题进行分词得到关键词，且包含文献的关键词；

步骤1.2建立节点之间的关系，具体包括：文献和句子、文献和关键词、句子和关键词、句子和句子以及关键词和关键词间的关系。其中，边是相邻节点之间的连线，代表之间具有一定的关系。具体包括文献与关键词，关键词与关键词，文献与句子，句子与句子及句子与关键词之间的关系等。其中，关键词和关键词之间的关系，以及句子和句子之间的关系采用BERT方法实现。关键词与文献及句子与文献采用共现TFIDF方法实现，关键词与句子之间的关系采用word2vec方法实现。

步骤1.3将步骤1.1从文献中抽取的关键词及句子与文献组成节点，将步骤1.2建立的节点间关系作为边，构建拓扑关系图。

步骤2，将步骤1构建的拓扑关系图转换为拓扑矩阵。

步骤3，采用马尔科夫链对步骤2输出的节点进行采用，分配到不同的层级上，具体为：

Batch为不同的卷积层，i为层数，ti为第i层的节点。对每一层根据概率抽取数量为n的节点。前一层的抽取的节点用来近似计算后一层的节点的向量，即前一层抽取出来的节点作为下一层抽取出来的节点的共享邻居集合。

步骤4：对不同层级的节点分别进行特征降维及卷积，得到降维后的特征，再经全连接层得到全连接层输出矩阵，具体包括如下子步骤：

步骤4.1对拓扑矩阵进行全局采样，获得采样后的样本矩阵X；

步骤4.2设定降维变量D＝1；

步骤4.3对步骤4.1获得的样本矩阵进行第D级降维，输出一级降维后的特征数据，将该特征数据组成矩阵M_D，再将该矩阵M_D输入卷积层进行D级卷积，得到卷积结果C_D。降维公式(1)为：

其中，F为PCA滤波器，R为采样矩阵,k为采样窗口，q是概率，L是滤波器的数量；

将降维后的特征数据输入卷积层进行一级卷积。

步骤4.4，二级降维和卷积。对由上一级降维获得的特征矩阵执行相同的降维操作，获得本层降维后的矩阵M，输入到本层的卷积层进行卷积；

步骤4.5重复步骤4.3步骤4.4，进行多级降维及卷积；

需要说明的是，本发明所提出的方法，以NSTL语料库构建的拓扑关系图包含节点和边，其中，文本节点是由期刊文献的标题、摘要及关键词组成，句子节点是通过LSTM方法对文献摘要进行抽取得到的。关键词节点是对文献的摘要、标题进行分词得到的，包含文献的关键词。根据关键词所处的位置不同，不同的关键词具有不同的权重。即处于文献中标题和关键词位置的关键词具有较高的权重。边是相邻节点之间的连线，代表之间具有一定的关系。具体包括文献与关键词，关键词与关键词，文献与句子，句子与句子及句子与关键词之间的关系等。

步骤4.6判断误差是否在所设阈值范围内，若是，保存当前卷积结果C_D并跳至步骤4.5，否则将D加1，跳至步骤4.2；

步骤4.7，将当前卷积结果C_D对应的矩阵输入全连接层，将降维后的特征数据组成矩阵M_D输入到全连接层，得到经全连接层输出的矩阵M_DA；

将降维后的特征输入到全连接层。采用梯度下降方法反传误差对模型参数进行训练，直到误差在预设阈值范围。

步骤5：基于步骤4得到的全连接层输出矩阵M_DA输入到分类层

步骤6：分类层进行分类并输出分类结果。分类方法采用Softmax。激活函数选择RELU等；误差函数选择交叉熵函数等，通过将模型分类结果与输入带有标签的文献分类对比获得误差。

实验：文献分类是个实验性较强的研究方向，且有常用的评价标准。本发明为了验证所提出分类模型的准确率和效率，选择的测试指标除了准确率外，还增加了推理时间这一项。采用公用语料库20NG、Ohsumed及MR和自行收集的NSTL科技期刊文献数据语料库。选择常用的CNN、LSTM、文本GCN等文献分类方法与本发明提出的方法进行性能比较和评价。

语料库：

公用语料库：20NG数据库包括18846文件，20个类，训练集11314，测试集7532条数据。Ohsumed医学的文献数据库来源于医药信息数据库MEDLINE10,包含了从1987-1991年五年间的270个医药类杂志的标题或摘要，包含348566个文档。我们使用了1990年的16890篇文献类别为2,3680训练集，其余测试集。MR语料库，是电影评论的语料库，每个语料都是一个句子。语料库中包含5331正向评价和5331个反向评价。参照“Liang Yao,ChengshengMao,Yuan Luo.Graph Convolutional Networks for Text Classifification,arXiv:1809.05679 v3[cs.CL]13 Nov 2018”。

自行构建的NSTL期刊文献语料库：选择2019年3-5月的18969条科技文献作为语料，分为社会科学总论、军事、医药卫生、工业科技及航空航天等五个一级类别。每个类别中的数据约4000条，训练数据为3000条数据，测试数据为1000条数据。

对以上所有数据集进行数据清洗和对原始数据进行标记等预处理。

参加测试的有CNN、LSTM、文本GCN及本发明提出的方法。实验采用的程序是从网上下载的开源程序，因功能需要进行了部分更改。激活函数选择RELU；分类函数选择SOFTMAX函数；误差函数选择交叉熵函数，通过将模型分类结果与输入带有标签的文献分类对比获得误差，采用梯度下降方法反传误差对模型参数进行训练，直到误差在预设阈值范围。

表1多种分类模型分类结果对比

从表1的测试结果可以看出，LSTM和CNN方法更依赖于词嵌入的预训练。而本发明方法只使用语料的信息即可。GCN方法忽略了词的语序信息，而本发明方法和LSTM、CNN方法都具有语序信息，有助于提高分类准确率。MR的语料句子都非常短，因此GCN及本发明方法在准确率方面无法超过CNN和LSTM方法，主要因为文档和词之间的关系很少。其中，文本GCN、CNN、LSTM方法在语料20NG、Ohsumed、MR上的实验结果参考“Liang Yao,ChengshengMao,Yuan Luo.Graph Convolutional Networks for Text Classifification,arXiv:1809.05679 v3[cs.CL]13 Nov 2018”。

由此可以得出结论，本发明提出的分类方法在20NG、Ohsumed、MR及NSTL语料库的分类准确率和推理时间，都占有优势。因此，可以看出，拓扑关系图的句子节点对提高分类准确率具有优势，采用马尔科夫链及多级特征降维策略可有效提高文献分类效率。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种改进的图神经网络科技文献大数据分类方法，其特征在于：包括以下步骤：

步骤1，构建包括节点和边的文献拓扑关系图；

步骤2，将步骤1构建的拓扑关系图转换为拓扑矩阵；

步骤4.1设定降维变量D＝1；

步骤5，将步骤4得到的全连接层输出矩阵M_DA输入到分类层；

步骤6，进行分类，得到分类结果并输出。

2.根据权利要求1所述的一种改进的图神经网络科技文献大数据分类方法，其特征在于：步骤1.1，具体包括如下子步骤：

步骤1.1从文献中抽取并获得关键词和句子；

步骤1.3将步骤1.2建立的节点间关系作为边，构建文献拓扑关系图。

3.根据权利要求2所述的一种改进的图神经网络科技文献大数据分类方法，其特征在于：步骤1.2中，节点包括文献、句子和关键词；文献由文献的标题、文献关键词及摘要组成，句子为由文献摘要中提取的具有语序特征的句子，关键词为文献关键词及由文献摘要中提取的关键词共同构成。

4.根据权利要求3所述的一种改进的图神经网络科技文献大数据分类方法，其特征在于：步骤1.2中，节点之间的关系，包括：文献和句子、文献和关键词、句子和关键词、句子和句子以及关键词和关键词间的关系。

5.根据权利要求4所述的一种改进的图神经网络科技文献大数据分类方法，其特征在于：步骤2中，拓扑矩阵为二维矩阵，该拓扑矩阵中的向量分别为文献、句子和关键词；矩阵节点为向量之间的关系值。