CN110232120A - 一种基于引用的文献查找方法 - Google Patents

一种基于引用的文献查找方法 Download PDF

Info

Publication number
CN110232120A
CN110232120A CN201910424962.2A CN201910424962A CN110232120A CN 110232120 A CN110232120 A CN 110232120A CN 201910424962 A CN201910424962 A CN 201910424962A CN 110232120 A CN110232120 A CN 110232120A
Authority
CN
China
Prior art keywords
paper
bibliography
abstract
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910424962.2A
Other languages
English (en)
Inventor
张加万
陈福朦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910424962.2A priority Critical patent/CN110232120A/zh
Publication of CN110232120A publication Critical patent/CN110232120A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于引用的文献查找方法,包括:上传提交一份pdf格式的论文;利用pdfminer读取pdf文件,并利用正则表达式获取论文的摘要和参考文献;通过参考文献题目获取文档集中的论文以及该论文的摘要;通过NLTK对上传论文的摘要,以及参考文献的摘要进行分词;将词转化为预先训练好的Word2vec向量,然后得到摘要的文本向量;将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络,计算两个文本向量的相似度,利用相似度排名。本发明实现了不依赖对论文已知内容,而是基于参考文献,查找该论文的相关文献。本发明涉及数据文献较少,可迅速、准确的推荐出相关文献,以了解相关的技术、行业、以及其他延伸知识。

Description

一种基于引用的文献查找方法
技术领域
本发明涉及文献查找技术,主要是在通过文献引用查找到与目标文献相关的资料,不需要提前了解目标文献的内容,并获取相关论文与其相似度
背景技术
近几年来,随着科研水平飞速发展和科研人才的增加,论文文献的数量变得非常庞大;如何快速查找到相关技术或者相关行业的参考文献是一个关注度很高的问题。利用文献的引用查找与文献相似度更高的论文,是一个获取相关知识的方法。在不了解文献的基础知识情况下,快速搜集到更多的论文,是本发明解决的主要问题。了解相关技术、背景、行业方法,利用引用文献的多级查找,更容易在小范围内,获取需要的文献知识。
发明内容
针对上述现有技术,本发明提供一种基于引用的文献查找方法,主要上传pdf论文之后,获取论文的摘要,以及多级参考文献的摘要,利用Siamese LSTM网络对比参考文献摘要与上传论文摘要的相似度,并排名推荐。其查询范围小,查询快捷,直接等等。
为了解决上述技术问题,本发明提出的一种基于引用的文献查找方法,包括步骤:
步骤一,在输入框点击上传,选择一份pdf格式的论文,并点击提交;
步骤二,文件上传到服务器,服务器文献查找系统利用pdfminer读取pdf文件,并利用正则表达式获取论文的摘要和参考文献;
步骤三,通过参考文献题目获取数据库中文档集中的论文以及该论文的摘要;
步骤四,通过自然语言处理工具包NLTK对上传论文的摘要,以及参考文献的摘要进行分词;
步骤五,利用预先训练好的产生词向量的Word2vec模型,将摘要的分词转化为Word2vec向量,然后得到摘要的文本向量;
步骤六,将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到预先训练好的Siamese LSTM网络,计算两个文本向量的相似度,依此评价两篇论文的相似度;
步骤七,重复上一步骤获取所有参考文献与上传论文的相似度,并利用相似度排名,显示在查找列表;
步骤八,查找列表最后,可点击按钮,查看更多;点击按钮,对参考文献的参考文献,重复进行以上三到七步骤,排除重复文献,并按照相似度排名,显示在文献查找列表;重复执行该步骤直至结束查找。
进一步讲,本发明基于引用的文献查找方法,提前获取大量论文的信息,并存储在数据库中,根据参考文献的名称即可查询到相关文献的信息,该信息至少包括作者、摘要、参考文献。
步骤五中,所用的预先训练好的Word2vec模型的训练过程是:wiki英文数据下载、英文数据处理、训练模型。
步骤六中,根据摘要,将词向量组合为文本向量并输入到训练好的Siamese LSTM模型;又根据该Siamese LSTM模型输出两个文本向量的相似度,依此评价两边论文的相似度;首先:搭建Siamese LSTM模型,并对模型进行多次训练,Siamese LSTM模型为两个LSTM的基本结构,该Siamese LSTM模型的训练过程是:标注相似论文1000对,利用Word2vec模型产生文本的向量,训练模型;然后:将搜索论文摘要的分词向量、待比较的参考文献论文摘要的分词向量输入到训练好的Siamese LSTM模型中;最后:获取Siamese LSTM模型的输出,这就是两篇论文摘要的相似度,以及评价论文的相似度。
步骤七中,根据与目标论文的相似度,对参考文献的论文进行排名并显示在查找列表处;如果需要查看更多论文,即对参考文献的参考文献进行上述步骤,去重复之后,根据相似度进行排名并展示。
与现有技术相比,本发明的有益效果如下:
(1)由于可以直接上传pdf文献,并利用已知算法提取上传文献和其相关的参考文献的摘要和关键内容,并基于这些内容进行排序推荐,因此实现了不依赖对论文已知内容,而是基于参考文献,查找该论文的相关文献。
(2)由于推荐的参考文献来源于相关的引用,可能来源于相关行业、相关技术、或者某一知识背景,因此本发明可以在不知道文献关键字或关键内容的前提下,了解与其相关的技术、行业、以及其他延申知识。
(3)由于查找范围只依赖于相关参考的文献,所以范围更小,相关性更高,因此了解相关技术、背景、行业方法,利用引用文献的多级查找,更容易在小范围内,获取需要的文献知识
附图说明
图1为本发明文献查找方法的界面显示示意图;
图2为本发明文献查找方法的流程图;
图3为本发明中Siamese LSTM模型结构图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
本发明提出的一种基于引用的文献查找方法,其包括以下八个步骤;
前提一:本文献查找系统提前获取了大量论文的信息,并存储在数据库中,根据参考文献的名称即可查询到相关文献的作者、摘要、参考文献等等。
前提二:分词模型Word2vec,已经训练结束;Siamese LSTM模型已经训练结束。如图3所展示的,本发明使用的孪生网络结构图。其中基本结构为LSTM模型架构。
步骤一,在输入框点击上传,选择一份pdf格式的论文,并点击提交;如附图的图1所示,在输入框中选择相应的文献,点击提交即可。
步骤二,文件上传到服务器,服务器文献查找系统利用pdfminer读取pdf文件,并利用正则表达式获取论文的摘要和参考文献;
步骤三,通过参考文献题目获取文档集中的论文以及该论文的摘要,
步骤四,通过自然语言处理工具包NLTK对上传论文的摘要,以及参考文献的摘要进行分词;
步骤五,将词转化为预先训练好的Word2vec向量,然后得到摘要的文本向量,即利用产生词向量的Word2vec模型,将摘要的分词转化为预先词向量。
步骤六,将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络,计算两个文本向量的相似度,依此评价两篇论文的相似度。模型的结构如图3所示。模型的训练和使用步骤如下:
根据摘要,将词向量组合为文本向量并输入到训练好的Siamese LSTM模型;又根据Siamese LSTM模型输出两个文本向量的相似度,依此评价两边论文的相似度;
首先:搭建Siamese LSTM模型,并对模型进行多次训练,Siamese LSTM模型为两个LSTM的基本结构,该Siamese LSTM模型的训练过程是:标注相似论文1000对,利用分词模型Word2vec产生文本的向量,训练模型;
然后:将搜索论文摘要的分词向量、待比较的参考文献论文摘要的分词向量输入到训练好的Siamese LSTM模型中;
最后:获取Siamese LSTM模型的输出,这就是两篇论文摘要的相似度,以及评价论文的相似度。
步骤七,重复上一步骤获取所有参考文献与上传论文的相似度,并利用相似度排名,显示在查找列表;具体讲是,根据与目标论文的相似度,对参考文献的论文进行排名并显示在查找列表处;如果需要查看更多论文,即对参考文献的参考文献进行上述步骤,去重复之后,根据相似度进行排名并展示。
步骤八,查找列表最后,可点击按钮,查看更多。点击按钮,对参考文献的参考文献,重复进行以上三到七步骤,排除重复文献,并按照相似度排名,显示在文献查找列表。此步骤可重复。
本发明利用深度学习、自然语言处理等技术对目标论文进行分析,然后获取其引用中,以及引用文献的引用中相似度高的论文资料。
下面是本发明应用的实例(请参阅图1~图3所示);
本发明搭建在flask框架服务器下,利用mysql数据库,实现了基于引用的文献查找。本文献查找系统提前获取了大量论文的信息,并存储在数据库中,根据参考文献的名称即可查询到相关文献的作者、摘要、参考文献等等。主要为两个数据表:
第一个表为:dblp(文献描述表),字段为:ID、题目、作者、source、时间、被引量、摘要、来源的会议或者期刊的名称、会议/期刊(或者)、二作、作者机构、关键词、所属领域
第二个表为:refs(引用表),字段为:ID和参考文献。
本发明利用了两个预先训练好的模型,Word2vec模型,Siamese LSTM模型。
第一:Word2vec模型训练步骤为:wiki英文数据下载、英文数据处理(预处理)、训练模型;
第二:Siamese LSTM模型:搭建网络结构如图3所示,该网络为两个LSTM的基本结构。该网络的训练过程是标注相似论文1000对,利用Word2vec产生文本的向量,利用网络模型训练。
运行阶段的基本流程为图2:提交pdf论文、获取论文摘要以及参考文献摘要、对摘要进行分词、转化词向量、获取相似度、排名并显示。更加详细的介绍为:
1、在输入框点击上传,选择一份pdf格式的论文,并点击提交;界面的显示如附图1展示,上方为输入框,点击输入框可以选择相关的pdf文献,点击上传按钮,可以实现长传。下方显示推荐的文献,把所有的文献按照相似度从大到小排序,每一个文献显示其排名,相似度,相似的关键字。
2、文件上传到服务器,服务器文献查找系统利用pdfminer读取pdf文件,并利用正则表达式获取论文的摘要和参考文献;
3、通过参考文献题目获取文档集中的论文以及该论文的摘要;
4、通过自然语言处理工具包NLTK对上传论文的摘要,以及参考文献的摘要进行分词;
5、将词转化为预先训练好的Word2vec向量,然后得到摘要的文本向量;
6、将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到已经训练好的Siamese LSTM网络,计算两个文本向量的相似度,依此评价两篇论文的相似度。此处如附图3,LSTM孪生网络的基本结构。
7、重复上一步骤获取所有参考文献与上传论文的相似度,并利用相似度排名,显示在查找列表;
8、查找列表最后,可点击按钮,查看更多。点击按钮,对参考文献的参考文献,重复进行以上三到七步骤,排除重复文献,并按照相似度排名,显示在文献查找列表。此步骤可重复。
本发明实现了不依赖对论文已知内容,而是基于参考文献,查找该论文的相关文献。本发明可以在不知道文献关键字或关键内容的前提下,了解与其相关的技术、行业、以及其他延申知识。本发明搜索快捷,涉及数据文献较少,可以更为迅速的、准确的推荐出相关文献。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (5)

1.一种基于引用的文献查找方法,其特征在于,包括步骤:
步骤一,在输入框点击上传,选择一份pdf格式的论文,并点击提交;
步骤二,文件上传到服务器,利用pdfminer读取pdf文件,并利用正则表达式获取论文的摘要和参考文献;
步骤三,通过参考文献题目获取数据库中文档集中的论文以及该论文的摘要;
步骤四,通过自然语言处理工具包NLTK对上传论文的摘要,以及参考文献的摘要进行分词;
步骤五,利用预先训练好的产生词向量的Word2vec模型,将摘要的分词转化为Word2vec向量,然后得到摘要的文本向量;
步骤六,将上传论文摘要的文本向量和一个参考文献摘要的文本向量输入到预先训练好的Siamese LSTM网络,计算两个文本向量的相似度,依此评价两边论文的相似度;
步骤七,重复上一步骤获取所有参考文献与上传论文的相似度,并利用相似度排名,显示在查找列表;
步骤八,查找列表最后,可点击按钮,查看更多;点击按钮,对参考文献的参考文献,重复进行以上三到七步骤,排除重复文献,并按照相似度排名,显示在文献查找列表;重复执行该步骤直至结束查找。
2.如权利要求1所述基于引用的文献查找方法,其特征在于,提前获取大量论文的信息,并存储在数据库中,根据参考文献的名称即可查询到相关文献的信息,该信息至少包括作者、摘要、参考文献。
3.如权利要求1所述基于引用的文献查找方法,其特征在于,步骤五中,所用的预先训练好的Word2vec模型的训练过程是:wiki英文数据下载、英文数据处理、训练模型。
4.如权利要求1所述基于引用的文献查找方法,其特征在于,步骤六中,根据摘要,将词向量组合为文本向量并输入到训练好的Siamese LSTM模型;又根据该Siamese LSTM模型输出两个文本向量的相似度,依此评价两边论文的相似度;
首先:搭建Siamese LSTM模型,并对模型进行多次训练,Siamese LSTM模型为两个LSTM的基本结构,该Siamese LSTM模型的训练过程是:标注相似论文1000对,利用Word2vec模型产生文本的向量,训练模型;
然后:将搜索论文摘要的文本向量、待比较的参考文献论文摘要的文本向量输入到训练好的Siamese LSTM模型中;
最后:获取Siamese LSTM模型的输出,这就是两篇论文摘要的相似度,以及评价论文的相似度。
5.如权利要求1所述基于引用的文献查找方法,其特征在于,步骤七中,根据与目标论文的相似度,对参考文献的论文进行排名并显示在查找列表处;如果需要查看更多论文,即对参考文献的参考文献进行上述步骤,去重复之后,根据相似度进行排名并展示。
CN201910424962.2A 2019-05-21 2019-05-21 一种基于引用的文献查找方法 Pending CN110232120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910424962.2A CN110232120A (zh) 2019-05-21 2019-05-21 一种基于引用的文献查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910424962.2A CN110232120A (zh) 2019-05-21 2019-05-21 一种基于引用的文献查找方法

Publications (1)

Publication Number Publication Date
CN110232120A true CN110232120A (zh) 2019-09-13

Family

ID=67861441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910424962.2A Pending CN110232120A (zh) 2019-05-21 2019-05-21 一种基于引用的文献查找方法

Country Status (1)

Country Link
CN (1) CN110232120A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN108763354A (zh) * 2018-05-16 2018-11-06 浙江工业大学 一种个性化的学术文献推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢超等: "基于引文内容的单篇学术论文参考文献网络结构研究", 《现代图书情报技术》 *
陈志涛: ""基于深度学习的个性化引文搜索推荐算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325029A (zh) * 2020-02-21 2020-06-23 河海大学 一种基于深度学习集成模型的文本相似度计算方法
CN111325029B (zh) * 2020-02-21 2023-08-22 河海大学 一种基于深度学习集成模型的文本相似度计算方法

Similar Documents

Publication Publication Date Title
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN104199965B (zh) 一种语义信息检索方法
WO2018087190A1 (en) Apparatus and method for semantic search
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN105404677B (zh) 一种基于树形结构的检索方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN103399862A (zh) 确定目标查询序列所对应的搜索引导信息的方法与设备
CN116306504A (zh) 候选实体生成方法、装置、存储介质及电子设备
CN113269477B (zh) 一种科研项目查询评分模型训练方法、查询方法及装置
CN110232120A (zh) 一种基于引用的文献查找方法
CN115860283B (zh) 基于知识工作者画像的贡献度预测方法及装置
CN111444414A (zh) 一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型
CN105426490A (zh) 一种基于树形结构的索引方法
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Huynh et al. Automatic keywords-based classification of vietnamese texts
CN115203589A (zh) 基于Trans-dssm模型的向量搜索方法及系统
CN114722183A (zh) 一种面向科研任务的知识推送方法及系统
CN114722188A (zh) 基于运营数据的广告生成方法、装置、设备及存储介质
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
RU2305314C1 (ru) Способ поиска и выборки информации из различных баз данных
Shafi et al. Urdu character recognition: A systematic literature review
CN114003706A (zh) 关键词组合生成模型训练方法及装置
KR20210141790A (ko) 머신러닝을 사용한 교수학습 자료추천 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190913

WD01 Invention patent application deemed withdrawn after publication