CN107153635A

CN107153635A - 一种自动提取论文引用内容及对应文后参考文献的方法和系统

Info

Publication number: CN107153635A
Application number: CN201610124658.2A
Authority: CN
Inventors: 王骏; 熊海涛
Original assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Current assignee: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd; " Academic Magazine (cd-Rom) " Co Ltd Of E-Magazine Society
Priority date: 2016-03-04
Filing date: 2016-03-04
Publication date: 2017-09-12

Abstract

本发明公开了一种自动提取论文引用内容及对应文后参考文献的方法和系统，包括以下步骤，步骤一，从REC文本中提取论文正文内容，提取部分为‘<正文>＝’标签后至下一个标签‘<>＝’之间内容，提取正则表达式如，‘<全文>＝(，*？)<\D*>’，步骤二，正文分句，对步骤一中提取出的正文内容进行分句，分句符号为中文句号‘。’和英文句号‘，’，由于英文句号与数学小数点，e，g等特殊符号相同，故设计如下分步处理方法，依次通过三个正则表达式来判断是否应当分句，抽取引用内容，在步骤二分句的基础上，从其中抽取出含有顺序编码制引用方式的句子，该发明有效解决了英文句号的歧义问题，为后续抽取工作打下良好基础。

Description

一种自动提取论文引用内容及对应文后参考文献的方法和系统

技术领域

本发明涉及自动提取论文引用内容及对应文后参考文献的方法和系统技术领域，具体为一种自动提取论文引用内容及对应文后参考文献的方法和系统。

背景技术

论文引用内容抽取指从论文中抽取出引用了其他参考文献的内容，其属于信息抽取技术范畴，随着科学技术的发展，作为科学研究成果代表的论文数量也在不断增长，对海量论文进行碎片化，知识化处理，从中发掘出深层次内容信息成为文献计量学领域的迫切需求，碎片化处理指根据需求从论文中抽取出相应内容，如研究对象，研究背景，引用内容等等，由于论文的引用关系反映了科学技术发展传承的过程，同时为评价论文提供了真实可靠的客观标准，因此在碎片化的整体需求中，提取引用内容显得尤为重要，另一方面，传统的文献计量学对于引用关系的研究局限于被引频次，题录信息等浅层信息，也需要进一步深入到引用内容层次进行分析，可见，对论文引用内容的抽取具有重要意义，论文相对于其他语料，具有行文格式较为规范的特点，特别是对于参考文献的引用，更是需要遵循一定规则，如GB/T7714-2005《文后参考文献著录规则》以国标的形式规定了引用文后参考文献的著录方法，因此目前有关引用内容抽取的研究一般使用基于规则的方法，中科院声学所韦向峰等人提出根据标志符”[]”，”()”以及其中连接符号”，”，”-”判断论文中是否存在引用，并抽取出引用内容的方法，在基于规则的抽取方法中，根据抽取对象特点，设计合理抽取规则是算法核心所在，韦向峰的方法利用了引用内容最明显的标志，然而并没有全面分析引用存在的不同形式，设计的抽取规则并不完善，也没有通过大规模语料验证算法，因此不能保证抽取的全面完整，在算法中，也没有提到如何对引用内容和其所引用的参考文献进行对应，除了自动抽取外，目前也有一些研究者采用手工方法进行引用内容抽取，手工方法通过人工阅读论文，判断文中的引用标志，抽取出引用内容，并将其与文后所引用的参考文献对应，如何荣立等人对于引用内容的研究采用人工方法，手工提取了300篇不同类型论文中包含的引用内容，很明显，这样的方法虽然简单明了，然而费时费力，不能实现大规模的抽取目前文献计量学领域研究引用关系只利用论文的引用次数，文献题录等信息，没有从论文中提取出引用内容信息以及进行更深层的分析利用，也没有一套完整全面从论文中提取出引用内容的系统方法。

发明内容

本发明的目的在于提供一种自动提取论文引用内容及对应文后参考文献的方法和系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种自动提取论文引用内容及对应文后参考文献的方法和系统，包括以下步骤：

步骤一：从REC文本中提取论文正文内容，提取部分为‘<正文>＝’标签后至下一个标签‘<>＝’之间内容，提取正则表达式如，‘<全文>＝(，*？)<\D*>’；

步骤二：正文分句，对步骤一中提取出的正文内容进行分句，分句符号为中文句号‘。’和英文句号‘，’，由于英文句号与数学小数点，e，g等特殊符号相同，故设计如下分步处理方法，依次通过三个正则表达式来判断是否应当分句，‘(？！\D\，\))(？！\D\，\])(？！l\，，)(？！e\，g)(？！[A-Z]\，\D)(\D\，(？！@)\D)’，‘(？！e\，\d)(？！g\，\d)(\D\，(？！@)\d)’，‘。’；

步骤三：抽取引用内容，在步骤二分句的基础上，从其中抽取出含有顺序编码制引用方式的句子，通过对大量数据分析，论文中顺序编码制可能包括如下几种格式(1)纯数字[1]，(2)连接号分隔[1-3]，(3)其他符号分隔[1～3][1～3]，(4)逗号及混合方式[1，2][1，2-4]，[1，2～4]，对于以上格式，分别设计正则表达式规则抽取，(1)‘\[(\d+)\]'，(2)‘\[(\d+-\d+)\]’，(3) ‘\[(\d+～\d+)\]’‘\[(\d+～\d+)\]’，(4)‘\[(\d+，，*？\d+)\]’，符合以上正则表达式的句子被抽取出作为引用内容；

步骤四：获取引用内容中参考文献标号，在步骤三中四种格式的基础上，解析所对应的参考文献标号，如[1]对应1，[1，2-4]对应1，2，3，4；

步骤五：对应文后参考文献，通过步骤四中获取的引用内容中参考文献标号，与文后参考文献序号对应，由于文后参考文献可能存在如下三种形式，(1)方括号[1]，(2)圆括号(1)，(3)只有数字无括号1，故根据以上三种形式设计对应正则表达式如，'\['+‘num’+'\]'‘num’'\('+‘num’+'\)'，按上述正则表达式首先在引文字段搜索参考文献序号，如果没有，则在正文末尾部分搜索参考文献序号，完成引文内容与文后参考文献的对应。

优选的，步骤一中，REC文本是本方法研究处理的论文格式，REC格式文本在每篇论文开头标志<REC>，此后论文中相关字段以‘<标签>＝’形式标出，如，<REC><标题>＝乒乓球教育的反思<全文>＝乒乓球是我国全民普及率非常高的运动项目，在我国有着非常广的群众基础，就运动项目本身来说，乒乓球运动…，<引文>＝。

优选的，在步骤四中，引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子，句子的分隔符号为中英文句号，参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息，不包括尾注，脚注等其他形式。

与现有技术相比，本发明的有益效果是：该发明使用三组规则对论文句子进行切分，有效解决了英文句号的歧义问题，为后续抽取工作打下良好基础，多规则引用内容抽取方法，在研究大规模论文数据的基础上，分析了四种不同的引用方式，并针对这些引用方式制定了抽取规则，处理论文数量达到百万篇级别，准确率和召回率分别达到83.5％，95.7％，无论是分析规模还是抽取性能，都优于现有技术，文后参考文献对应方法，本申请所使用参考文献对应方法不但能在引文字段上完成对应，如引文字段空缺，还可以在全文中进行对应，三种对应规则确保了较好的对应效果。

附图说明

图1为本发明系统流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

请参阅图1，本发明提供一种技术方案：一种自动提取论文引用内容及对应文后参考文献的方法和系统，包括以下步骤：

步骤一：从REC文本中提取论文正文内容，提取部分为‘<正文>＝’标签后至下一个标签‘<>＝’之间内容，提取正则表达式如，‘<全文>＝(，*？)<\D*>’，REC文本是本方法研究处理的论文格式，REC格式文本在每篇论文开头标志<REC>，此后论文中相关字段以‘<标签>＝’形式标出，如，<REC><标题>＝乒乓球教育的反思<全文>＝乒乓球是我国全民普及率非常高的运动项目，在我国有着非常广的群众基础，就运动项目本身来说，乒乓球运动…，<引文>＝；

步骤三：抽取引用内容，在步骤二分句的基础上，从其中抽取出含有顺序编码制引用方式的句子，通过对大量数据分析，论文中顺序编码制可能包括如下几种格式(1)纯数字[1]，(2)连接号分隔[1-3]，(3)其他符号分隔[1～3][1～3]，(4)逗号及混合方式[1，2][1，2-4]，[1，2～4]，对于以上格式，分别设计正则表达式规则抽取，(1)‘\[(\d+)\]'，(2)‘\[(\d+-\d+)\]’，(3)‘\[(\d+～\d+)\]’‘\[(\d+～\d+)\]’，(4)‘\[(\d+，，*？\d+)\]’，符合以上正则表达式的句子被抽取出作为引用内容；

步骤四：获取引用内容中参考文献标号，在步骤三中四种格式的基础上，解析所对应的参考文献标号，如[1]对应1，[1，2-4]对应1、2、3、4，引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子，句子的分隔符号为中英文句号，参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息，不包括尾注，脚注等其他形式；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种自动提取论文引用内容及对应文后参考文献的方法和系统，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种自动提取论文引用内容及对应文后参考文献的方法和系统，其特征在于：步骤一中，REC文本是本方法研究处理的论文格式，REC格式文本在每篇论文开头标志<REC>，此后论文中相关字段以‘<标签>＝’形式标出，如，<REC><标题>＝乒乓球教育的反思<全文>＝乒乓球是我国全民普及率非常高的运动项目，在我国有着非常广的群众基础，就运动项目本身来说，乒乓球运动…，<引文>＝[1]王玉苹，对乒乓球运动国际化发展的对策研究[J]，运动，2014(19)，[2]王晓斐，全民健身环境下乒乓球运动的发展[J]，青少年体育，2015(05)。

3.根据权利要求1所述的一种自动提取论文引用内容及对应文后参考文献的方法和系统，其特征在于：在步骤四中，引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子，句子的分隔符号为中英文句号，参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息，不包括尾注，脚注等其他形式。