CN107153635A - 一种自动提取论文引用内容及对应文后参考文献的方法和系统 - Google Patents
一种自动提取论文引用内容及对应文后参考文献的方法和系统 Download PDFInfo
- Publication number
- CN107153635A CN107153635A CN201610124658.2A CN201610124658A CN107153635A CN 107153635 A CN107153635 A CN 107153635A CN 201610124658 A CN201610124658 A CN 201610124658A CN 107153635 A CN107153635 A CN 107153635A
- Authority
- CN
- China
- Prior art keywords
- text
- content
- bibliography
- paper
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自动提取论文引用内容及对应文后参考文献的方法和系统,包括以下步骤,步骤一,从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)<\D*>’,步骤二,正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,该发明有效解决了英文句号的歧义问题,为后续抽取工作打下良好基础。
Description
技术领域
本发明涉及自动提取论文引用内容及对应文后参考文献的方法和系统技术领域,具体为一种自动提取论文引用内容及对应文后参考文献的方法和系统。
背景技术
论文引用内容抽取指从论文中抽取出引用了其他参考文献的内容,其属于信息抽取技术范畴,随着科学技术的发展,作为科学研究成果代表的论文数量也在不断增长,对海量论文进行碎片化,知识化处理,从中发掘出深层次内容信息成为文献计量学领域的迫切需求,碎片化处理指根据需求从论文中抽取出相应内容,如研究对象,研究背景,引用内容等等,由于论文的引用关系反映了科学技术发展传承的过程,同时为评价论文提供了真实可靠的客观标准,因此在碎片化的整体需求中,提取引用内容显得尤为重要,另一方面,传统的文献计量学对于引用关系的研究局限于被引频次,题录信息等浅层信息,也需要进一步深入到引用内容层次进行分析,可见,对论文引用内容的抽取具有重要意义,论文相对于其他语料,具有行文格式较为规范的特点,特别是对于参考文献的引用,更是需要遵循一定规则,如GB/T7714-2005《文后参考文献著录规则》以国标的形式规定了引用文后参考文献的著录方法,因此目前有关引用内容抽取的研究一般使用基于规则的方法,中科院声学所韦向峰等人提出根据标志符”[]”,”()”以及其中连接符号”,”,”-”判断论文中是否存在引用,并抽取出引用内容的方法,在基于规则的抽取方法中,根据抽取对象特点,设计合理抽取规则是算法核心所在,韦向峰的方法利用了引用内容最明显的标志,然而并没有全面分析引用存在的不同形式,设计的抽取规则并不完善,也没有通过大规模语料验证算法,因此不能保证抽取的全面完整,在算法中,也没有提到如何对引用内容 和其所引用的参考文献进行对应,除了自动抽取外,目前也有一些研究者采用手工方法进行引用内容抽取,手工方法通过人工阅读论文,判断文中的引用标志,抽取出引用内容,并将其与文后所引用的参考文献对应,如何荣立等人对于引用内容的研究采用人工方法,手工提取了300篇不同类型论文中包含的引用内容,很明显,这样的方法虽然简单明了,然而费时费力,不能实现大规模的抽取目前文献计量学领域研究引用关系只利用论文的引用次数,文献题录等信息,没有从论文中提取出引用内容信息以及进行更深层的分析利用,也没有一套完整全面从论文中提取出引用内容的系统方法。
发明内容
本发明的目的在于提供一种自动提取论文引用内容及对应文后参考文献的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种自动提取论文引用内容及对应文后参考文献的方法和系统,包括以下步骤:
步骤一:从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)<\D*>’;
步骤二:正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,‘(?!\D\,\))(?!\D\,\])(?!l\,,)(?!e\,g)(?![A-Z]\,\D)(\D\,(?!@)\D)’,‘(?!e\,\d)(?!g\,\d)(\D\,(?!@)\d)’,‘。’;
步骤三:抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,通过对大量数据分析,论文中顺序编码制可能包括如下几种格式(1)纯数字[1],(2)连接号分隔[1-3],(3)其他符号分隔[1~3][1~3],(4)逗号及混合方式[1,2][1,2-4],[1,2~4],对于以上格式,分别设计正则表达式规则抽取,(1)‘\[(\d+)\]',(2)‘\[(\d+-\d+)\]’,(3) ‘\[(\d+~\d+)\]’‘\[(\d+~\d+)\]’,(4)‘\[(\d+,,*?\d+)\]’,符合以上正则表达式的句子被抽取出作为引用内容;
步骤四:获取引用内容中参考文献标号,在步骤三中四种格式的基础上,解析所对应的参考文献标号,如[1]对应1,[1,2-4]对应1,2,3,4;
步骤五:对应文后参考文献,通过步骤四中获取的引用内容中参考文献标号,与文后参考文献序号对应,由于文后参考文献可能存在如下三种形式,(1)方括号[1],(2)圆括号(1),(3)只有数字无括号1,故根据以上三种形式设计对应正则表达式如,'\['+‘num’+'\]'‘num’'\('+‘num’+'\)',按上述正则表达式首先在引文字段搜索参考文献序号,如果没有,则在正文末尾部分搜索参考文献序号,完成引文内容与文后参考文献的对应。
优选的,步骤一中,REC文本是本方法研究处理的论文格式,REC格式文本在每篇论文开头标志<REC>,此后论文中相关字段以‘<标签>=’形式标出,如,<REC><标题>=乒乓球教育的反思<全文>=乒乓球是我国全民普及率非常高的运动项目,在我国有着非常广的群众基础,就运动项目本身来说,乒乓球运动…,<引文>=。
优选的,在步骤四中,引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子,句子的分隔符号为中英文句号,参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息,不包括尾注,脚注等其他形式。
与现有技术相比,本发明的有益效果是:该发明使用三组规则对论文句子进行切分,有效解决了英文句号的歧义问题,为后续抽取工作打下良好基础,多规则引用内容抽取方法,在研究大规模论文数据的基础上,分析了四种不同的引用方式,并针对这些引用方式制定了抽取规则,处理论文数量达到百万篇级别,准确率和召回率分别达到83.5%,95.7%,无论是分析规模还 是抽取性能,都优于现有技术,文后参考文献对应方法,本申请所使用参考文献对应方法不但能在引文字段上完成对应,如引文字段空缺,还可以在全文中进行对应,三种对应规则确保了较好的对应效果。
附图说明
图1为本发明系统流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1,本发明提供一种技术方案:一种自动提取论文引用内容及对应文后参考文献的方法和系统,包括以下步骤:
步骤一:从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)<\D*>’,REC文本是本方法研究处理的论文格式,REC格式文本在每篇论文开头标志<REC>,此后论文中相关字段以‘<标签>=’形式标出,如,<REC><标题>=乒乓球教育的反思<全文>=乒乓球是我国全民普及率非常高的运动项目,在我国有着非常广的群众基础,就运动项目本身来说,乒乓球运动…,<引文>=;
步骤二:正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,‘(?!\D\,\))(?!\D\,\])(?!l\,,)(?!e\,g)(?![A-Z]\,\D)(\D\,(?!@)\D)’,‘(?!e\,\d)(?!g\,\d)(\D\,(?!@)\d)’,‘。’;
步骤三:抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编 码制引用方式的句子,通过对大量数据分析,论文中顺序编码制可能包括如下几种格式(1)纯数字[1],(2)连接号分隔[1-3],(3)其他符号分隔[1~3][1~3],(4)逗号及混合方式[1,2][1,2-4],[1,2~4],对于以上格式,分别设计正则表达式规则抽取,(1)‘\[(\d+)\]',(2)‘\[(\d+-\d+)\]’,(3)‘\[(\d+~\d+)\]’‘\[(\d+~\d+)\]’,(4)‘\[(\d+,,*?\d+)\]’,符合以上正则表达式的句子被抽取出作为引用内容;
步骤四:获取引用内容中参考文献标号,在步骤三中四种格式的基础上,解析所对应的参考文献标号,如[1]对应1,[1,2-4]对应1、2、3、4,引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子,句子的分隔符号为中英文句号,参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息,不包括尾注,脚注等其他形式;
步骤五:对应文后参考文献,通过步骤四中获取的引用内容中参考文献标号,与文后参考文献序号对应,由于文后参考文献可能存在如下三种形式,(1)方括号[1],(2)圆括号(1),(3)只有数字无括号1,故根据以上三种形式设计对应正则表达式如,'\['+‘num’+'\]'‘num’'\('+‘num’+'\)',按上述正则表达式首先在引文字段搜索参考文献序号,如果没有,则在正文末尾部分搜索参考文献序号,完成引文内容与文后参考文献的对应。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种自动提取论文引用内容及对应文后参考文献的方法和系统,其特征在于:包括以下步骤:
步骤一:从REC文本中提取论文正文内容,提取部分为‘<正文>=’标签后至下一个标签‘<>=’之间内容,提取正则表达式如,‘<全文>=(,*?)<\D*>’;
步骤二:正文分句,对步骤一中提取出的正文内容进行分句,分句符号为中文句号‘。’和英文句号‘,’,由于英文句号与数学小数点,e,g等特殊符号相同,故设计如下分步处理方法,依次通过三个正则表达式来判断是否应当分句,‘(?!\D\,\))(?!\D\,\])(?!l\,,)(?!e\,g)(?![A-Z]\,\D)(\D\,(?!@)\D)’,‘(?!e\,\d)(?!g\,\d)(\D\,(?!@)\d)’,‘。’;
步骤三:抽取引用内容,在步骤二分句的基础上,从其中抽取出含有顺序编码制引用方式的句子,通过对大量数据分析,论文中顺序编码制可能包括如下几种格式(1)纯数字[1],(2)连接号分隔[1-3],(3)其他符号分隔[1~3][1~3],(4)逗号及混合方式[1,2][1,2-4],[1,2~4],对于以上格式,分别设计正则表达式规则抽取,(1)‘\[(\d+)\]',(2)‘\[(\d+-\d+)\]’,(3)‘\[(\d+~\d+)\]’‘\[(\d+~\d+)\]’,(4)‘\[(\d+,,*?\d+)\]’,符合以上正则表达式的句子被抽取出作为引用内容;
步骤四:获取引用内容中参考文献标号,在步骤三中四种格式的基础上,解析所对应的参考文献标号,如[1]对应1,[1,2-4]对应1,2,3,4;
步骤五:对应文后参考文献,通过步骤四中获取的引用内容中参考文献标号,与文后参考文献序号对应,由于文后参考文献可能存在如下三种形式,(1)方括号[1],(2)圆括号(1),(3)只有数字无括号1,故根据以上三种形式设计对应正则表达式如,'\['+‘num’+'\]'‘num’'\('+‘num’+'\)',按上述正则表达式首先在引文字段搜索参考文献序号,如果没有,则在正文末尾部分搜索参考文献序号,完成引文内容与文后参考文献的对应。
2.根据权利要求1所述的一种自动提取论文引用内容及对应文后参考文献的方法和系统,其特征在于:步骤一中,REC文本是本方法研究处理的论文格式,REC格式文本在每篇论文开头标志<REC>,此后论文中相关字段以‘<标签>=’形式标出,如,<REC><标题>=乒乓球教育的反思<全文>=乒乓球是我国全民普及率非常高的运动项目,在我国有着非常广的群众基础,就运动项目本身来说,乒乓球运动…,<引文>=[1]王玉苹,对乒乓球运动国际化发展的对策研究[J],运动,2014(19),[2]王晓斐,全民健身环境下乒乓球运动的发展[J],青少年体育,2015(05)。
3.根据权利要求1所述的一种自动提取论文引用内容及对应文后参考文献的方法和系统,其特征在于:在步骤四中,引用内容指论文正文中包含有顺序编码制参考文献引用方式的句子,句子的分隔符号为中英文句号,参考文献是论文正文后以顺序编码方式列出的被引用文献及相关信息,不包括尾注,脚注等其他形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610124658.2A CN107153635A (zh) | 2016-03-04 | 2016-03-04 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610124658.2A CN107153635A (zh) | 2016-03-04 | 2016-03-04 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107153635A true CN107153635A (zh) | 2017-09-12 |
Family
ID=59792305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610124658.2A Pending CN107153635A (zh) | 2016-03-04 | 2016-03-04 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107153635A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN111090980A (zh) * | 2019-12-18 | 2020-05-01 | 北大方正集团有限公司 | Pdf文件的生成方法、计算机设备与可读存储介质 |
CN112434197A (zh) * | 2021-01-27 | 2021-03-02 | 博智安全科技股份有限公司 | 文本内容的逆向提取方法、装置、设备及存储介质 |
CN113268616A (zh) * | 2021-05-25 | 2021-08-17 | 北京北大方正电子有限公司 | 参考文献内容提取方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011131384A1 (en) * | 2010-04-20 | 2011-10-27 | International Business Machines Corporation | A dual dfa decomposition for large scale regular expression matching |
CN103064827A (zh) * | 2013-01-16 | 2013-04-24 | 盘古文化传播有限公司 | 一种网页内容抽取的方法及装置 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
-
2016
- 2016-03-04 CN CN201610124658.2A patent/CN107153635A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011131384A1 (en) * | 2010-04-20 | 2011-10-27 | International Business Machines Corporation | A dual dfa decomposition for large scale regular expression matching |
CN103064827A (zh) * | 2013-01-16 | 2013-04-24 | 盘古文化传播有限公司 | 一种网页内容抽取的方法及装置 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
Non-Patent Citations (1)
Title |
---|
祝清松,等: "引文类型识别研究进展", 《图书情报知识》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109241521B (zh) * | 2018-07-27 | 2023-06-20 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN111090980A (zh) * | 2019-12-18 | 2020-05-01 | 北大方正集团有限公司 | Pdf文件的生成方法、计算机设备与可读存储介质 |
CN112434197A (zh) * | 2021-01-27 | 2021-03-02 | 博智安全科技股份有限公司 | 文本内容的逆向提取方法、装置、设备及存储介质 |
CN113268616A (zh) * | 2021-05-25 | 2021-08-17 | 北京北大方正电子有限公司 | 参考文献内容提取方法和装置 |
CN113268616B (zh) * | 2021-05-25 | 2023-08-22 | 北京北大方正电子有限公司 | 参考文献内容提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McEnery et al. | The Lancaster Corpus of Mandarin Chinese: A corpus for monolingual and contrastive language study | |
CN102360383B (zh) | 一种面向文本的领域术语与术语关系抽取方法 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN101201820B (zh) | 一种双语语料库过滤方法及系统 | |
CN101093478B (zh) | 一种根据实体的汉语简称识别汉语全称的方法及系统 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN107608949A (zh) | 一种基于语义模型的文本信息抽取方法及装置 | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN107153635A (zh) | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN104951469B (zh) | 优化语料库的方法和装置 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN102043808A (zh) | 利用网页结构抽取双语词条的方法及设备 | |
CN102662969A (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN103902525A (zh) | 维吾尔语词性标注方法 | |
CN108037837A (zh) | 一种搜索词的智能提示方法 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
CN106776555A (zh) | 一种基于字模型的评论文本实体识别方法及装置 | |
CN103049524A (zh) | 同义词检索结果按词义自动聚类方法 | |
CN102609410A (zh) | 规范文档辅助写作系统及规范文档生成方法 | |
CN103116607B (zh) | 一种新的基于汉语拼音的全文检索系统 | |
CN110162684A (zh) | 基于深度学习的机器阅读理解数据集构建以及评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170912 |