CN112597305B

CN112597305B - 基于深度学习的科技文献作者名消歧方法及web端消歧装置

Info

Publication number: CN112597305B
Application number: CN202011536139.XA
Authority: CN
Inventors: 王双双; 苏颖; 龙春
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-09-01
Anticipated expiration: 2040-12-22
Also published as: CN112597305A

Abstract

本发明涉及一种基于深度学习的科技文献作者名消歧方法及web端消歧装置，消歧方法包括：获取待消歧科技文献人名的论文数据集；获取数据特征；使用四层卷积网络提取全局特征向量，同时使用图卷积网络提取局部特征向量；使用LSTM神经网络实现估计聚类簇数k；通过层次聚类实现科技文献作者名消歧。web端消歧装置包括论文数据获取层、信息传输层、消歧逻辑层和数据存储层，论文数据获取层与信息传输层相连，消歧逻辑层和数据存储层分别与信息传输层相连，消歧逻辑层与数据存储层相连。与现有技术相比，本发明具有精度高、可以实现海量文本有效消歧等优点。

Description

基于深度学习的科技文献作者名消歧方法及web端消歧装置

技术领域

本发明涉及计算机自然语言处理和信息检索领域，尤其是涉及一种基于深度学习的科技文献作者名消歧方法及web端消歧装置。

背景技术

随着互联网的高速发展，互联网已成为信息社会的知识载体，它伴随着人类文明的发展，渗透进人类社会的各个领域。知识互联的目标是实现人和机器都可理解的万维网，使得我们的网络更加智能化。在这种背景下，近十几年来互联网上产生了越来越多的知识库，这些知识库涉及娱乐、金融和生物医学等各个领域，为人们更加正能地使用Web提供了更好的方案。科技文献知识库就是众多类型知识库中的一种。随着每年科技文献数量的剧增，大量的作者重名现象降低了文献检索的准确性，当用户根据作者姓名进行文献检索时，往往会出现许多不相干的同名作者发表的其他领域的文献信息，这些不是用户真实需要的信息干扰了用户对于检索结果的判断，拖延了科研工作的周期。

知识库的实体消歧问题吸引了越来越多的研究者的目光，尤其是在信息检索、机器阅读和知识问答等领域都具有重要的应用价值。如中国专利CN111581949A中公开了一种学者人名的消歧方法，包括获取待消歧人名的论文数据集；利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量；分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵，并进行特征融合，以获取特征融合矩阵；基于所述特征融合矩阵进行聚类，以获取聚类论文集和离群论文集。该专利中的消歧方法采用特征学习、特征融合、聚类分析等技术来实现科技文献的学者人名消歧，虽然提高了相关评测得分和科技文献作者库检索的准确性，但是消歧的精度依然不高，学者知识库管理效率低下。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、可以实现海量文本有效消歧的基于深度学习的科技文献作者名消歧方法及web端消歧装置。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的科技文献作者名消歧方法，包括：

步骤1：获取待消歧科技文献人名的论文数据集；

步骤2：获取数据特征；

步骤3：使用四层卷积网络提取全局特征向量，同时使用图卷积网络提取局部特征向量；

步骤4：使用LSTM神经网络实现估计聚类簇数k；

步骤5：通过层次聚类实现科技文献作者名自动消歧。

优选地，所述的步骤2具体为：

抽取论文间的关系网络；

使用word2vec中的skip-gram算法来对文本特征进行表示学习；

采用IDF逆文档频率来对文本语义特征进行线性加权。

更加优选地，所述的论文间的关系网络包括：

以论文为节点，节点之间通过论文的共同信息构建关联关系，所述共同信息包括共同作者或/和存在共词的待消歧人名所属机构；

其中，节点之间通过共同作者构建的关联关系为第一关联关系，所述第一关联关系的关联度和共同作者的数目呈正向变化；节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系，所述第二关联关系的关联度和所属机构的共词数目呈正向变化。

更加优选地，所述的IDF逆文档频率的计算方法为：

更加优选地，所述的步骤3中四层卷积网络的损失函数为三重态损失函数。

更加优选地，所述的三重态损失函数为具体为：

其中，D_i为训练论文实例；D_i+为训练实例正样本；D_i-为训练实例负样本；y_i为论文实例向量；y_i+为正样本实例向量；y_i-为负样本实例向量；m为裕度，即容差范围。

更加优选地，所述的步骤3中图卷积网络提取局部特征向量的具体方法为：

步骤3-1：在所述论文异质网络中选择一个节点作为初始节点；

步骤3-2：基于所述节点之间的关联关系，由所述初始节点游走至第二节点，获得元路径；

步骤3-3：基于所述元路径的类型，逐步迭代至预设的节点数量，获得长路径；

步骤3-4：利用GCN图卷积网络算法实现对异质网络关联数据的特征学习，获局部特征向量。

更加优选地，所述的步骤4具体为：

步骤4-1：将四层卷积网络提取的全局特征向量与使用图卷积网络提取的局部特征向量进行融合，获得融合特征矩阵；

步骤4-2：使用循环神经网络LSTM获取聚类簇数k；

步骤4-3：使用层次聚类法对融合特征矩阵进行聚类；

进行层次聚类时以步骤4-2获取的聚类簇数k作为层次聚类的簇数；

步骤4-4：进行若干次层次聚类，直至聚类结果稳定；

步骤4-5：对聚类结果进行解析即可获得作者名的消歧结果。

更加优选地，所述的步骤4-3具体为：

设定每一个人名特征向量的聚类簇数量为k，每个对象看作一类，计算每两个对象之间的最小聚类，根据最小距离合并新类。

一种使用上述消歧方法的web端消歧装置，包括：

论文数据获取层，用于获取待消歧人名的论文数据集，并对数据集进行预处理；

信息传输层，用于通过前后端交互技术进行信息传输；

消歧逻辑层，内嵌科技文献作者名消歧方法，用于对获取的论文数据集进行消歧；

数据存储层，用于基于所述特征融合矩阵进行聚类，以获取聚类论文集和离群论文集；

所述的论文数据获取层与信息传输层相连；所述的消歧逻辑层和数据存储层分别与信息传输层相连；所述的消歧逻辑层与数据存储层相连。

与现有技术相比，本发明具有以下有益效果：

一、精度高：本发明中的科技文献作者名消歧方法以及web端消歧装置充分利用文本采样，采用特征学习、深度学习技术、层次聚类分析等技术来实现科技文献的学者名消歧，进一步提高了消歧精度。

二、实现海量文本的有效消歧：本发明中的科技文献作者名消歧方法经过测试可以在6个小时内处理千万级的论文量，实现速度较快的消歧；而且本方案消歧评测得分要普遍高于目前已有技术0.5个百分点。

附图说明

图1为本发明中消歧方法的流程示意图；

图2为本发明实施例中消歧方法的流程示意图；

图3为本发明实施例中web消歧装置的结构示意图。

图中标号所示：

1、论文数据获取层，2、信息传输层，3、消歧逻辑层，4、数据存储层。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于深度学习的科技文献作者名消歧方法，其流程如图1和图2所示，包括：

步骤1：获取待消歧科技文献人名的论文数据集；

从本地数据库利用表关联的方式抽取出科技文献，其中文献信息字段包括作者、机构、作者名、期刊名、论文标题等字段，从而方便后续特征的提取。利用python等工具将关系型文本特征转化为map结构，具体在数据库上表现人名为key，对应的人名下的所有文献资源都是value。本实施例选用内存映射数据库Redis，Redis数据库存储结构采用key-value方式存储，其数据结构为字节数组，数据可以随意复制和随意传输；访问简单，不需要运行单独的数据库管理进程，只要在访问数据的代码里引用Redis数据库，访问时给文件路径即可；支持多进程、多线程读写。

步骤2：获取数据特征，具体为：

抽取论文间的关系网络；使用word2vec中的skip-gram算法来对文本特征进行表示学习；采用IDF逆文档频率来对文本语义特征进行线性加权；

其中IDF算法的主要作用是从文本中抽取处每一个词在总的语料中的关键程度。采用逆文档频率IDF进行加权，可以突出论文的关键词，从而让一篇论文的语义特征向量更能表示出该论文的信息。

论文间的关系网络包括：

其中，节点之间通过共同作者构建的关联关系为第一关联关系，所述第一关联关系的关联度和共同作者的数目呈正向变化；节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系，所述第二关联关系的关联度和所属机构的共词数目呈正向变化；

IDF逆文档频率的计算方法为：

而对于word2vec，本文主要利用Gensim训练包下的CBOW模型以及Skip-Gram模型来实现针对文本数据的词向量训练；其中，Skip-Gram模型能够较好的以三层网网络来预测特定输入此的上下文词，从而得到更加具备词义信息的词向量库，因此本文利用Skip-Gram模型来实现文本数据到词向量的映射；

在利用word2vec实现文本词嵌入的过程中，我们需要针对文本的特征进行划分，也就是将问题划分为文本语义特征，还有文本关系特征，对于文本关系特征的提取，还是利用Skip-Gram模型来实现文本的嵌入，但是考虑到文本关系特征并没有特定的文本数据，我们需要生成文本的关系文本数据，对于关系文本的抽取，可以抽取论文之间的关系网络来实现，构建论文文本关系网络的具体步骤包括：

以论文id为结点，进行论文的随机游走，随机游走的网络结构主要是基于论文之间的特有属性信息构造的，所述特有属性信息包括了论文之间存在共同作者，存在共同机构，存在共同关键词个数等等；对于随机网络的游走过程，可以基于元路径来规划下一个结点，可以通过获取已有的预设路径来生成路径集，从而得到文本关系特征语料库；

本实例还需要对文本数据进行一些预处理操作，从而获取文本语义特征。对于文本的预处理过程，具体可以包括正则匹配，分词，词性还原，去除各种噪声词；对于关键词、机构、论文作者等重要属性字段需要进行特定的预处理才能得到较好的特征数据；

步骤3：使用四层卷积网络提取全局特征向量，同时使用图卷积网络提取局部特征向量，具体为：

利用四层的卷积神经网络以及文档词嵌入实现全局表示学习，获取全局表示特征向量；根据上述提取的文本特征以及文本嵌入特征，需要针对这些特征进一步处理，对于特征的细化，主要是将相似性较高的论文集进一步聚合起来。为了获取全局文本表示向量数据，本实例考虑基于一些深度学习算法来学习更深层次的细化特征。

利用四层的卷积神经网络以及文档词嵌入实现全局表示学习，获取全局特征向量；其中利用四层卷积网络进行表示学习的最终优化的损失函数为三重态损失函数：

对于细化的全局表示学习特征，可以利用进一步抽取局部学习特征，局部链接学习主要是为每一个同名候选集学习一个单独的向量表示空间。从而得到论文文本基于语义的全局特征和基于关系的局部链接特征的融合。仅以根据融合特征矩阵来对所有的论文进行聚类消歧；

使用图卷积网络提取局部特征向量的具体方法为：

步骤3-4：利用GCN图卷积网络算法实现对异质网络关联数据的特征学习，获局部特征向量；

步骤4：使用LSTM神经网络实现估计聚类簇数k；

对于实现最终的科技文献作者名消歧，只剩下最后的聚类和聚类参数估计，虽然目前针对特征数据的无监督聚类有很多种算法，比如基于划分的k-means聚类，基于密度的dbscan聚类，以及基于相似性距离的层次聚类算法；考虑到使用密度聚类虽然不需要先确定出聚类参数K，但是基于密度的聚类算法很容易出现噪声结点，也就是有些结点不会出现在聚类类别中。这种情况就需要考虑二次聚类，因此效率上会大打折扣；本实施例考虑基于循环神经网络LSTM来估计出聚类簇数K，从而利用层次聚类算法实现最终的人名消歧。层次聚类具有距离和规则的相似度容易定义，限制少，可以发现类的层次关系，可以聚类成其它形状等优点。

具体步骤为：

步骤4-2：使用循环神经网络LSTM获取聚类簇数k；

步骤4-3：使用层次聚类法对融合特征矩阵进行聚类；

步骤4-4：进行若干次层次聚类，直至聚类结果稳定；

步骤4-5：对聚类结果进行解析即可获得作者名的消歧结果；

步骤5：通过层次聚类实现科技文献作者名消歧。

综上所述，本实施例提供的学者人名的消歧方法，充分利用了论文的信息，包括论文关系特征和论文语义特征，采用特征学习、特征融合和聚类分析等技术来实现科技文献的学者人名消歧，提高了科技文献作者库检索的准确性，有助于构建一个以学者实体为核心的文献知识库。

本实施例还提供了一种使用上述方法的web端消歧装置，其结构如图3所示，包括：

论文数据获取层1，用于获取待消歧人名的论文数据集，并对数据集进行预处理；

信息传输层2，用于通过前后端交互技术进行信息传输，主要用Ajax技术实现前后端的信息交互。Ajax底层本质上还是底层封装了http协议这种网络通信技术；后端逻辑层主要实现了针对前段发来的请求进行逻辑处理，比如查找固定的作者信息逻辑等，用到的技术主要包括了spring框架，主要是spring mvc这种逻辑处理模式；

消歧逻辑层3，内嵌科技文献作者名消歧方法，用于对获取的论文数据集进行消歧；

数据存储层4，用于基于所述特征融合矩阵进行聚类，以获取聚类论文集和离群论文集，主要用来存储持久化的数据，比如科研作者知识库主要是存储在搜索引擎Elasticsearch中的，Elasticsearch具有信息检索速度快，可以存储海量数据的有点，信息检索效率要远高于直接使用关系型数据库；

论文数据获取层1与信息传输层2相连，消歧逻辑层3和数据存储层4分别与信息传输层2相连，消歧逻辑层3与数据存储层4相连。

综上所述，本发明涉及一种基于图卷积网络(GCN)，LSTM等深度学习算法的科技文献作者名消歧方法，以及基于Elasticsearch全文检索引擎的web端消歧装置。解决了现有技术中人名消歧准确率低、学者知识库管理效率低下的问题，并且利用web端消歧装置的信息检索技术，进一步说明了本发明针对科技文献作者名歧义消除的有效性。

其次，本发明充分利用文本采样，采用特征学习、深度学习技术、层次聚类分析等技术来实现科技文献的学者名消歧，提高了相关评测得分，从而让科技文献作者库检索更加准确。本发明还解决了目前人名消歧技术中无法针对海量文本数据进行计算消歧的缺点，提出的作者名消歧方案经过测试可以在6个小时内处理千万级的论文量，实现速度较快的消歧，而且本方案消歧评测得分要普遍高于目前已有技术0.5个百分点。此外，基于本发明消歧技术的基础上，本文提出了利用Elasticsearch全文检索引擎的web端作者信息检索系统，再次验证了消歧技术的有效性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的科技文献作者名消歧方法，其特征在于，所述的消歧方法包括：

步骤1：获取待消歧科技文献人名的论文数据集；

步骤2：获取数据特征；

步骤4：使用LSTM神经网络实现估计聚类簇数k；

步骤5：通过层次聚类实现科技文献作者名自动消歧；

所述的步骤2具体为：

抽取论文间的关系网络；

使用word2vec中的skip-gram算法来对文本特征进行表示学习；

采用IDF逆文档频率来对文本语义特征进行线性加权；

所述的步骤3中四层卷积网络的损失函数为三重态损失函数；

所述的步骤3中图卷积网络提取局部特征向量的具体方法为：

步骤3-1：在论文异质网络中选择一个节点作为初始节点；

所述的步骤4和步骤5具体为：

步骤4-2：使用循环神经网络LSTM获取聚类簇数k；

步骤4-3：使用层次聚类法对融合特征矩阵进行聚类；

步骤4-4：进行若干次层次聚类，直至聚类结果稳定；

步骤4-5：对聚类结果进行解析即可获得作者名的消歧结果。

2.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法，其特征在于，所述的论文间的关系网络包括：

3.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法，其特征在于，所述的IDF逆文档频率的计算方法为：

4.根据权利要求1所述的一种基于深度学习的科技文献作者名消歧方法，其特征在于，所述的步骤4-3具体为：

5.一种使用如权利要求1中所述消歧方法的web端消歧装置，其特征在于，所述的web端消歧装置包括：

论文数据获取层(1)，用于获取待消歧人名的论文数据集，并对数据集进行预处理；

信息传输层(2)，用于通过前后端交互技术进行信息传输；

消歧逻辑层(3)，内嵌科技文献作者名消歧方法，用于对获取的论文数据集进行消歧；

数据存储层(4)，用于基于所述特征融合矩阵进行聚类，以获取聚类论文集和离群论文集；

所述的论文数据获取层(1)与信息传输层(2)相连；所述的消歧逻辑层(3)和数据存储层(4)分别与信息传输层(2)相连；所述的消歧逻辑层(3)与数据存储层(4)相连。