CN110232120A

CN110232120A - 一种基于引用的文献查找方法

Info

Publication number: CN110232120A
Application number: CN201910424962.2A
Authority: CN
Inventors: 张加万; 陈福朦
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-13

Abstract

本发明公开了一种基于引用的文献查找方法，包括：上传提交一份pdf格式的论文；利用pdfminer读取pdf文件，并利用正则表达式获取论文的摘要和参考文献；通过参考文献题目获取文档集中的论文以及该论文的摘要；通过NLTK对上传论文的摘要，以及参考文献的摘要进行分词；将词转化为预先训练好的Word2vec向量，然后得到摘要的文本向量；将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络，计算两个文本向量的相似度，利用相似度排名。本发明实现了不依赖对论文已知内容，而是基于参考文献，查找该论文的相关文献。本发明涉及数据文献较少，可迅速、准确的推荐出相关文献，以了解相关的技术、行业、以及其他延伸知识。

Description

一种基于引用的文献查找方法

技术领域

本发明涉及文献查找技术，主要是在通过文献引用查找到与目标文献相关的资料，不需要提前了解目标文献的内容，并获取相关论文与其相似度

背景技术

近几年来，随着科研水平飞速发展和科研人才的增加，论文文献的数量变得非常庞大；如何快速查找到相关技术或者相关行业的参考文献是一个关注度很高的问题。利用文献的引用查找与文献相似度更高的论文，是一个获取相关知识的方法。在不了解文献的基础知识情况下，快速搜集到更多的论文，是本发明解决的主要问题。了解相关技术、背景、行业方法，利用引用文献的多级查找，更容易在小范围内，获取需要的文献知识。

发明内容

针对上述现有技术，本发明提供一种基于引用的文献查找方法，主要上传pdf论文之后，获取论文的摘要，以及多级参考文献的摘要，利用Siamese LSTM网络对比参考文献摘要与上传论文摘要的相似度，并排名推荐。其查询范围小，查询快捷，直接等等。

为了解决上述技术问题，本发明提出的一种基于引用的文献查找方法，包括步骤：

步骤一，在输入框点击上传，选择一份pdf格式的论文，并点击提交；

步骤二，文件上传到服务器，服务器文献查找系统利用pdfminer读取pdf文件，并利用正则表达式获取论文的摘要和参考文献；

步骤三，通过参考文献题目获取数据库中文档集中的论文以及该论文的摘要；

步骤四，通过自然语言处理工具包NLTK对上传论文的摘要，以及参考文献的摘要进行分词；

步骤五，利用预先训练好的产生词向量的Word2vec模型，将摘要的分词转化为Word2vec向量，然后得到摘要的文本向量；

步骤六，将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到预先训练好的Siamese LSTM网络，计算两个文本向量的相似度，依此评价两篇论文的相似度；

步骤七，重复上一步骤获取所有参考文献与上传论文的相似度，并利用相似度排名，显示在查找列表；

步骤八，查找列表最后，可点击按钮，查看更多；点击按钮，对参考文献的参考文献，重复进行以上三到七步骤，排除重复文献，并按照相似度排名，显示在文献查找列表；重复执行该步骤直至结束查找。

进一步讲，本发明基于引用的文献查找方法，提前获取大量论文的信息，并存储在数据库中，根据参考文献的名称即可查询到相关文献的信息，该信息至少包括作者、摘要、参考文献。

步骤五中，所用的预先训练好的Word2vec模型的训练过程是：wiki英文数据下载、英文数据处理、训练模型。

步骤六中，根据摘要，将词向量组合为文本向量并输入到训练好的Siamese LSTM模型；又根据该Siamese LSTM模型输出两个文本向量的相似度，依此评价两边论文的相似度；首先：搭建Siamese LSTM模型，并对模型进行多次训练，Siamese LSTM模型为两个LSTM的基本结构，该Siamese LSTM模型的训练过程是：标注相似论文1000对，利用Word2vec模型产生文本的向量，训练模型；然后：将搜索论文摘要的分词向量、待比较的参考文献论文摘要的分词向量输入到训练好的Siamese LSTM模型中；最后：获取Siamese LSTM模型的输出，这就是两篇论文摘要的相似度，以及评价论文的相似度。

步骤七中，根据与目标论文的相似度，对参考文献的论文进行排名并显示在查找列表处；如果需要查看更多论文，即对参考文献的参考文献进行上述步骤，去重复之后，根据相似度进行排名并展示。

与现有技术相比，本发明的有益效果如下：

(1)由于可以直接上传pdf文献，并利用已知算法提取上传文献和其相关的参考文献的摘要和关键内容，并基于这些内容进行排序推荐，因此实现了不依赖对论文已知内容，而是基于参考文献，查找该论文的相关文献。

(2)由于推荐的参考文献来源于相关的引用，可能来源于相关行业、相关技术、或者某一知识背景，因此本发明可以在不知道文献关键字或关键内容的前提下，了解与其相关的技术、行业、以及其他延申知识。

(3)由于查找范围只依赖于相关参考的文献，所以范围更小，相关性更高，因此了解相关技术、背景、行业方法，利用引用文献的多级查找，更容易在小范围内，获取需要的文献知识

附图说明

图1为本发明文献查找方法的界面显示示意图；

图2为本发明文献查找方法的流程图；

图3为本发明中Siamese LSTM模型结构图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出的一种基于引用的文献查找方法，其包括以下八个步骤；

前提一：本文献查找系统提前获取了大量论文的信息，并存储在数据库中，根据参考文献的名称即可查询到相关文献的作者、摘要、参考文献等等。

前提二：分词模型Word2vec，已经训练结束；Siamese LSTM模型已经训练结束。如图3所展示的，本发明使用的孪生网络结构图。其中基本结构为LSTM模型架构。

步骤一，在输入框点击上传，选择一份pdf格式的论文，并点击提交；如附图的图1所示，在输入框中选择相应的文献，点击提交即可。

步骤三，通过参考文献题目获取文档集中的论文以及该论文的摘要，

步骤五，将词转化为预先训练好的Word2vec向量，然后得到摘要的文本向量，即利用产生词向量的Word2vec模型，将摘要的分词转化为预先词向量。

步骤六，将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络，计算两个文本向量的相似度，依此评价两篇论文的相似度。模型的结构如图3所示。模型的训练和使用步骤如下：

根据摘要，将词向量组合为文本向量并输入到训练好的Siamese LSTM模型；又根据Siamese LSTM模型输出两个文本向量的相似度，依此评价两边论文的相似度；

首先：搭建Siamese LSTM模型，并对模型进行多次训练，Siamese LSTM模型为两个LSTM的基本结构，该Siamese LSTM模型的训练过程是：标注相似论文1000对，利用分词模型Word2vec产生文本的向量，训练模型；

然后：将搜索论文摘要的分词向量、待比较的参考文献论文摘要的分词向量输入到训练好的Siamese LSTM模型中；

最后：获取Siamese LSTM模型的输出，这就是两篇论文摘要的相似度，以及评价论文的相似度。

步骤七，重复上一步骤获取所有参考文献与上传论文的相似度，并利用相似度排名，显示在查找列表；具体讲是，根据与目标论文的相似度，对参考文献的论文进行排名并显示在查找列表处；如果需要查看更多论文，即对参考文献的参考文献进行上述步骤，去重复之后，根据相似度进行排名并展示。

步骤八，查找列表最后，可点击按钮，查看更多。点击按钮，对参考文献的参考文献，重复进行以上三到七步骤，排除重复文献，并按照相似度排名，显示在文献查找列表。此步骤可重复。

本发明利用深度学习、自然语言处理等技术对目标论文进行分析，然后获取其引用中，以及引用文献的引用中相似度高的论文资料。

下面是本发明应用的实例(请参阅图1～图3所示)；

本发明搭建在flask框架服务器下，利用mysql数据库，实现了基于引用的文献查找。本文献查找系统提前获取了大量论文的信息，并存储在数据库中，根据参考文献的名称即可查询到相关文献的作者、摘要、参考文献等等。主要为两个数据表：

第一个表为：dblp(文献描述表)，字段为：ID、题目、作者、source、时间、被引量、摘要、来源的会议或者期刊的名称、会议/期刊(或者)、二作、作者机构、关键词、所属领域

第二个表为：refs(引用表)，字段为：ID和参考文献。

本发明利用了两个预先训练好的模型，Word2vec模型，Siamese LSTM模型。

第一：Word2vec模型训练步骤为：wiki英文数据下载、英文数据处理(预处理)、训练模型；

第二：Siamese LSTM模型：搭建网络结构如图3所示，该网络为两个LSTM的基本结构。该网络的训练过程是标注相似论文1000对，利用Word2vec产生文本的向量，利用网络模型训练。

运行阶段的基本流程为图2：提交pdf论文、获取论文摘要以及参考文献摘要、对摘要进行分词、转化词向量、获取相似度、排名并显示。更加详细的介绍为：

1、在输入框点击上传，选择一份pdf格式的论文，并点击提交；界面的显示如附图1展示，上方为输入框，点击输入框可以选择相关的pdf文献，点击上传按钮，可以实现长传。下方显示推荐的文献，把所有的文献按照相似度从大到小排序，每一个文献显示其排名，相似度，相似的关键字。

2、文件上传到服务器，服务器文献查找系统利用pdfminer读取pdf文件，并利用正则表达式获取论文的摘要和参考文献；

3、通过参考文献题目获取文档集中的论文以及该论文的摘要；

4、通过自然语言处理工具包NLTK对上传论文的摘要，以及参考文献的摘要进行分词；

5、将词转化为预先训练好的Word2vec向量，然后得到摘要的文本向量；

6、将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络，计算两个文本向量的相似度，依此评价两篇论文的相似度。此处如附图3，LSTM孪生网络的基本结构。

7、重复上一步骤获取所有参考文献与上传论文的相似度，并利用相似度排名，显示在查找列表；

8、查找列表最后，可点击按钮，查看更多。点击按钮，对参考文献的参考文献，重复进行以上三到七步骤，排除重复文献，并按照相似度排名，显示在文献查找列表。此步骤可重复。

本发明实现了不依赖对论文已知内容，而是基于参考文献，查找该论文的相关文献。本发明可以在不知道文献关键字或关键内容的前提下，了解与其相关的技术、行业、以及其他延申知识。本发明搜索快捷，涉及数据文献较少，可以更为迅速的、准确的推荐出相关文献。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于引用的文献查找方法，其特征在于，包括步骤：

步骤二，文件上传到服务器，利用pdfminer读取pdf文件，并利用正则表达式获取论文的摘要和参考文献；

步骤六，将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到预先训练好的Siamese LSTM网络，计算两个文本向量的相似度，依此评价两边论文的相似度；

2.如权利要求1所述基于引用的文献查找方法，其特征在于，提前获取大量论文的信息，并存储在数据库中，根据参考文献的名称即可查询到相关文献的信息，该信息至少包括作者、摘要、参考文献。

3.如权利要求1所述基于引用的文献查找方法，其特征在于，步骤五中，所用的预先训练好的Word2vec模型的训练过程是：wiki英文数据下载、英文数据处理、训练模型。

4.如权利要求1所述基于引用的文献查找方法，其特征在于，步骤六中，根据摘要，将词向量组合为文本向量并输入到训练好的Siamese LSTM模型；又根据该Siamese LSTM模型输出两个文本向量的相似度，依此评价两边论文的相似度；

首先：搭建Siamese LSTM模型，并对模型进行多次训练，Siamese LSTM模型为两个LSTM的基本结构，该Siamese LSTM模型的训练过程是：标注相似论文1000对，利用Word2vec模型产生文本的向量，训练模型；

然后：将搜索论文摘要的文本向量、待比较的参考文献论文摘要的文本向量输入到训练好的Siamese LSTM模型中；

5.如权利要求1所述基于引用的文献查找方法，其特征在于，步骤七中，根据与目标论文的相似度，对参考文献的论文进行排名并显示在查找列表处；如果需要查看更多论文，即对参考文献的参考文献进行上述步骤，去重复之后，根据相似度进行排名并展示。