CN106126497A

CN106126497A - 一种自动挖掘对应施引片段和被引文献原文内容片段的方法

Info

Publication number: CN106126497A
Application number: CN201610452862.7A
Authority: CN
Inventors: 王骏; 赵方; 赵一方; 熊海涛; 伍军红
Original assignee: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Current assignee: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2016-11-16

Abstract

本发明公开了一种自动挖掘对应施引片段和被引文献原文内容片段的方法，该方法包括如下步骤：从论文中抽取引用了参考文献的句子作为施引片段；对施引片断所引用的参考文献进行分句并编号；对施引片断中和参考文献中的每个句子进行分词，形成施引片断词组和参考文献句子词组，并计算施引片断和参考文献句子的相似度；根据计算的句子的相似度，对句子进行排序，并抽取出和施引片断相似度排在第一位的参考文献中的句子，将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。本发明提供的方法无需预先准备语料训练，计算复杂度较低，能灵活实现多种相似度计算方法，实现了较高的准确率和召回率。

Description

一种自动挖掘对应施引片段和被引文献原文内容片段的方法

技术领域

本发明属于自然语言处理中的信息抽取和文献计量学中的引用内容提取分析领域，尤其涉及一种自动挖掘对应施引片段和被引文献原文内容片段的方法。

背景技术

现有目前文献计量学领域研究引用关系只利用论文的引用次数，文献题录等信息，没有对论文中具体引用内容信息进行深层次的分析利用。基于以上不足，本发明利用自然语言处理技术,分析科技论文，提出并实现了一种对科技论文施引片段和被引文献原文进行内容分析，挖掘发现其对应关系的方法系统..本发明填补了目前引用关系研究在内容分析层面的空白，同时挖掘对应出的内容片段还可以作为后续研究论文热点被引所在，论文价值分析的基础。

论文之间的引用关系反映了科学技术发展传承的过程，论文中的施引内容也是后来研究者对于之前研究所做出的天然的同行评议，能够客观而全面的反映论文具体的价值点所在和价值几何。例如Anderson分析了组织学习领域中Walsh和Ungson的一篇经典文章被引的情况，分析结果包括后续的研究具体引用了这篇文章中的哪些知识，在这些知识中哪些对以后研究具有重大影响以及哪些知识被人们所批判，所有的这些对于施引内容的分析构成了对这篇经典文献的综合评价，而这些评价结果是不能简单通过引用频次来揭示的，必须对施引的具体内容进行分析.在其工作中，非常重要的一个基础就是需要发现后续论文具体引用了原文献的哪些内容，也就是需要挖掘对应出论文施引片段和被引文献相应的原文内容片段。很明显，这样的工作如果通过人工来完成,必然是费时费力，不具备大规模应用的现实可行性.针对该问题,我们研究了目前现有的相关技术及其不足。

最直接也是最天然的对应方法是采用人工阅读文献，进行施引片段和原文内容的对应，该方法准确率可以得到保证，然而如上所述，由于耗费人工过多和一致性的问题,并不适合大规模使用。目前该方法一般用作形成标准测评集，用以评价判断自动抽取结果的性能。

目前国内对于自动对应施引片段和被引文献原文内容片段研究较少，已知的方法有基于连续字符串的n-gram方法，通过比对施引片段和被引文献的句子，如果其中存在连续n个字符相同，则判断它们为对应内容，并将被引文献中相应的句子抽出。该方法的特点在于简便易行，然而只考虑了n个连续字符，判断标准过于简单，如果相关内容被诸如‘的’等无意义连词分开，就无法实现对应。在实践中，该方法也是表现出了较高的准确率然而召回率表现不佳。

国外现有的处理方法主要是bag-of-words方法，即所谓词袋模型。首先通过大规模语料得到一定数量词语作为特征向量，然后通过这些特征向量来表现施引片段和被引文献的句子，接下来计算施引片段和句子的相似度，即可得到相似度最高的句子作为对应内容。该方法使用了较为成熟的技术，其不足在于事先需要较大规模语料训练得出词语特征向量，同时特征向量的选择对于结果有较大影响，造成性能波动较大。

发明内容

为解决上述技术问题，本发明的目的是提供一种自动挖掘对应施引片段和被引文献原文内容片段的方法，该方法无需预先准备语料训练，计算复杂度较低，能灵活实现多种相似度计算方法，实现了较高的准确率和召回率。

本发明的目的通过以下的技术方案来实现：

一种自动挖掘对应施引片段和被引文献原文内容片段的方法，包括：

A从论文中抽取引用了参考文献的句子作为施引片段；

B对施引片断所引用的参考文献进行分句并编号；

C对施引片断中和参考文献中的每个句子进行分词，形成施引片断词组和参考文献句子词组，并计算施引片断和参考文献句子的相似度；

D根据计算的句子的相似度，对句子进行排序，并抽取出和施引片断相似度排在第一位的参考文献中的句子，将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

使用三组规则对论文句子进行切分，有效解决了英文句号的歧义问题，为后续抽取工作打下良好基础。

基于分词的句子相似度计算方法，通过对句子分词，形成词组串，计算词组串中的相同词语来计算句子的相似度，该方法计算复杂度较低，一方面避免了词袋法需要预先大规模语料训练的缺点，另一方面也克服了基于连续字符串方法过于机械，无法处理一些简单变化的情况。

基于句子相似度计算的施引片段和被引文献原文内容片段对应方法，本方法简单易行，对应挖掘效果良好。

附图说明

图1是自动挖掘对应施引片段和被引文献原文内容片段的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

Claims

1.一种自动挖掘对应施引片段和被引文献原文内容片段的方法，其特征在于，所述方法包括如下步骤：

A从论文中抽取引用了参考文献的句子作为施引片段；

B对施引片断所引用的参考文献进行分句并编号；

2.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法，其特征在于，所述步骤A中句子的分隔符号为中英文句号。

3.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法，其特征在于，所述步骤B中：根据中英文句号对参考文献进行句子切分。

4.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法，其特征在于，所述句子相似度计算方法包括：对句子分词，形成词组串，计算词组串中的相同词语来计算句子的相似度。

5.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法，其特征在于，所述步骤D中，参考文献中句子的抽取还根据施引片断相似度得分超过一定阈值的参考文献中的句子，作为与施引片断对应的被引文献原文内容片断。