CN109241521A

CN109241521A - 一种基于引用关系的科技文献高关注度句子提取方法

Info

Publication number: CN109241521A
Application number: CN201810847079.XA
Authority: CN
Inventors: 陆遥; 余丹填
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-18
Anticipated expiration: 2038-07-27
Also published as: CN109241521B

Abstract

本发明涉及句子级知识抽取的技术领域，更具体地，涉及一种基于引用关系的科技文献高关注度句子提取方法。本发明的主要步骤包括：对领域文档集预处理工作、统计高被引文章、提取高关注度句子以及CNN句子分类器训练。本发明提出一种更具客观性和适用性的科技论文高关注度句子提取方法，以所要研究的某一学科领域的大量科技文献为对象，基于引文分析研究方法，统计高被引文献，从中进行相应引证句子的相似度匹配，提取出相似度高的句子组成高关注度句子集；接着，对高关注度句子进行词性标注，使用标注序列集作为训练语料，通过CNN的训练，得到能自动识别论文中创新点句子的分类器。

Description

一种基于引用关系的科技文献高关注度句子提取方法

技术领域

本发明涉及句子级知识抽取的技术领域，更具体地，涉及一种基于引用关系的科技文献高关注度句子提取方法。

背景技术

识别科技文献中的高关注度句子属于句子级知识抽取的研究范畴。传统的知识抽取方式大多以规则和学习为基础，而随着大数据时代的到来，知识抽取的对象多且复杂，国内外开始采用机器学习和自然语言分析技术相结合的方法。基于机器学习的知识抽取系统，提出了自适应的信息抽取(Adaptive IE)、开放信息抽取(Open IE)等新的技术思路，并向着自动本体学习(Ontology Learning)的方向发展；而基于自然语言分析的知识抽取系统，则提出了基于模式标注(Pattern-Based Annotation)、语义标注(SemanticAnnotation)等新的技术思路，并且都在向着基于Ontology的信息抽取(OBIE)的方向发展。

具体到针对科技文献创新点的抽取，目前采用的方法主要有基于语言学特征的方法、基于本体或词表的方法以及基于句子分类的方法三种。

(1)基于语言学特征的方法主要通过分析和选择创新点句子的语言特征进行抽取或制定相应规则抽取。但该类方法涉及到明确的语言特征和规则的选取和制定，精确度要求高，同时难以覆盖抽取目标的所有语言学现象。

(2)基于本体或词表抽取的方法认为通过词表或本体中实体之间的关联可以发现潜在的新知识。但该方法偏向词表或本体中存在的概念，对本体中没有的新概念、新术语的揭示能力较弱。然而，这些新概念、新术语正是我们所要挖掘的创新点信息。

(3)基于句子分类的方法则是将创新点信息抽取问题转化成分类问题。根据一定的创新点特征，对句子分类标注后训练分类器，利用所得分类器识别句子所属类别。分类器的分类效果很大程度受到标注集的影响，而创新点句子的分类特征(如词频、句长、动词特征、元话语特征、线索词、作者新贡献等)的选取又根据研究对象、研究目的等的不同而不同。

方法(1)、(2)主要通过基于规则，尤其是语法规则的方法。但是，使用基于规则的方法处理NLP任务时，往往需要语言学家等各种专家的配合，研究工作强度大。并且，基于规则的语言模型不能通过机器学习的方法自动地获得，无法使用计算机自动地进行泛化。这在如今大数据的时代很难得到实际应用。

方法(3)中一个关键问题是创新点句子训练集的选取。判断是否可作为训练语料的各种特征、规则等的人为主观决定会影响到语料的内容和质量，进而影响训练效果。即使有一定的规则可参照，在人工对逐个句子进行判断时，实际上经常难以明确地定论该句子是否符合规则。在这种基于语料库的训练方法中一个好的训练集是关键，而选取训练文本的问题之一是难以有一个统一的且便于计量的标准。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于引用关系的科技文献高关注度句子提取方法。

为解决上述技术问题，本发明采用的技术方案是：一种基于引用关系的科技文献高关注度句子提取方法，包括以下步骤：

S1：对领域文档集做相关预处理工作，所述预处理工作包括核对以及统一正文中的引用标注，保证领域文档集与参考文献一一匹配，同时便于后续试验的统一处理，所述预处理工作还包括对领域文档集中论文进行分句处理；

S2：根据参考文献列表对文章被引次数进行统计，根据被引次数分布情况确定一个被引量阈值，取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象；同时提取出高被引文章对应的引述句子，用于下一步高被引文章中高关注度句子的提取；

S3：基于LSI潜在语义索引模型训练文本并计算句子的相似度，设定相似度阈值，从高被引文章中找出与对应引述句子有最高句子相似度且该相似度达到相似度阈值的句子，加入到高关注度句子训练集；

S4：利用自然语言处理工具包NLTK中的词性标注器对高关注度句子和非高关注度句子进行词性标注，对高关注句子和非高关注句子分别加以标签1和0；输入词性符号序列和对应标签，进行CNN训练得到高关注度句子的分类器。

在本技术方案中，在所述步骤S3中，通过相似度阈值的设定，过滤掉无意义的引用，筛选出被高度关注、引用的创新点信息；在高被引文章中也会进行引用，并且可能由于与其对应引述句子涉及的内容高度相关或引用同一篇文章而被匹配出来，但这类高被引文章中含其他引用的句子将不纳入高关注句子集。

与现有技术相比，本发明的有益效果是：

本发明提出一种更具客观性和适用性的科技论文高关注度句子提取方法，以所要研究的某一学科领域的大量科技文献为对象，基于引文分析研究方法，统计高被引文献，从中进行相应引证句子的相似度匹配，提取出相似度高的句子组成高关注度句子集；接着，对高关注度句子进行词性标注，使用标注序列集作为训练语料，通过CNN的训练，能得到自动识别论文中创新点句子的分类器。

附图说明

图1为本发明一种基于引用关系的科技文献高关注度句子提取方法的流程示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例

图1为本发明一种基于引用关系的科技文献高关注度句子提取方法的第一实施例，一种基于引用关系的科技文献高关注度句子提取方法，包括以下步骤：

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于引用关系的科技文献高关注度句子提取方法，其特征在于，包括以下步骤：