CN106126497A - 一种自动挖掘对应施引片段和被引文献原文内容片段的方法 - Google Patents

一种自动挖掘对应施引片段和被引文献原文内容片段的方法 Download PDF

Info

Publication number
CN106126497A
CN106126497A CN201610452862.7A CN201610452862A CN106126497A CN 106126497 A CN106126497 A CN 106126497A CN 201610452862 A CN201610452862 A CN 201610452862A CN 106126497 A CN106126497 A CN 106126497A
Authority
CN
China
Prior art keywords
sentence
leader
list
references
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610452862.7A
Other languages
English (en)
Inventor
王骏
赵方
赵一方
熊海涛
伍军红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority to CN201610452862.7A priority Critical patent/CN106126497A/zh
Publication of CN106126497A publication Critical patent/CN106126497A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动挖掘对应施引片段和被引文献原文内容片段的方法,该方法包括如下步骤:从论文中抽取引用了参考文献的句子作为施引片段;对施引片断所引用的参考文献进行分句并编号;对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。本发明提供的方法无需预先准备语料训练,计算复杂度较低,能灵活实现多种相似度计算方法,实现了较高的准确率和召回率。

Description

一种自动挖掘对应施引片段和被引文献原文内容片段的方法
技术领域
本发明属于自然语言处理中的信息抽取和文献计量学中的引用内容提取分析领域,尤其涉及一种自动挖掘对应施引片段和被引文献原文内容片段的方法。
背景技术
现有目前文献计量学领域研究引用关系只利用论文的引用次数,文献题录等信息,没有对论文中具体引用内容信息进行深层次的分析利用。基于以上不足,本发明利用自然语言处理技术,分析科技论文,提出并实现了一种对科技论文施引片段和被引文献原文进行内容分析,挖掘发现其对应关系的方法系统..本发明填补了目前引用关系研究在内容分析层面的空白,同时挖掘对应出的内容片段还可以作为后续研究论文热点被引所在,论文价值分析的基础。
论文之间的引用关系反映了科学技术发展传承的过程,论文中的施引内容也是后来研究者对于之前研究所做出的天然的同行评议,能够客观而全面的反映论文具体的价值点所在和价值几何。例如Anderson分析了组织学习领域中Walsh和Ungson的一篇经典文章被引的情况,分析结果包括后续的研究具体引用了这篇文章中的哪些知识,在这些知识中哪些对以后研究具有重大影响以及哪些知识被人们所批判,所有的这些对于施引内容的分析构成了对这篇经典文献的综合评价,而这些评价结果是不能简单通过引用频次来揭示的,必须对施引的具体内容进行分析.在其工作中,非常重要的一个基础就是需要发现后续论文具体引用了原文献的哪些内容,也就是需要挖掘对应出论文施引片段和被引文献相应的原文内容片段。很明显,这样的工作如果通过人工来完成,必然是费时费力,不具备大规模应用的现实可行性.针对该问题,我们研究了目前现有的相关技术及其不足。
最直接也是最天然的对应方法是采用人工阅读文献,进行施引片段和原文内容的对应,该方法准确率可以得到保证,然而如上所述,由于耗费人工过多和一致性的问题,并不适合大规模使用。目前该方法一般用作形成标准测评集,用以评价判断自动抽取结果的性能。
目前国内对于自动对应施引片段和被引文献原文内容片段研究较少,已知的方法有基于连续字符串的n-gram方法,通过比对施引片段和被引文献的句子,如果其中存在连续n个字符相同,则判断它们为对应内容,并将被引文献中相应的句子抽出。该方法的特点在于简便易行,然而只考虑了n个连续字符,判断标准过于简单,如果相关内容被诸如‘的’等无意义连词分开,就无法实现对应。在实践中,该方法也是表现出了较高的准确率然而召回率表现不佳。
国外现有的处理方法主要是bag-of-words方法,即所谓词袋模型。首先通过大规模语料得到一定数量词语作为特征向量,然后通过这些特征向量来表现施引片段和被引文献的句子,接下来计算施引片段和句子的相似度,即可得到相似度最高的句子作为对应内容。该方法使用了较为成熟的技术,其不足在于事先需要较大规模语料训练得出词语特征向量,同时特征向量的选择对于结果有较大影响,造成性能波动较大。
发明内容
为解决上述技术问题,本发明的目的是提供一种自动挖掘对应施引片段和被引文献原文内容片段的方法,该方法无需预先准备语料训练,计算复杂度较低,能灵活实现多种相似度计算方法,实现了较高的准确率和召回率。
本发明的目的通过以下的技术方案来实现:
一种自动挖掘对应施引片段和被引文献原文内容片段的方法,包括:
A从论文中抽取引用了参考文献的句子作为施引片段;
B对施引片断所引用的参考文献进行分句并编号;
C对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;
D根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
使用三组规则对论文句子进行切分,有效解决了英文句号的歧义问题,为后续抽取工作打下良好基础。
基于分词的句子相似度计算方法,通过对句子分词,形成词组串,计算词组串中的相同词语来计算句子的相似度,该方法计算复杂度较低,一方面避免了词袋法需要预先大规模语料训练的缺点,另一方面也克服了基于连续字符串方法过于机械,无法处理一些简单变化的情况。
基于句子相似度计算的施引片段和被引文献原文内容片段对应方法,本方法简单易行,对应挖掘效果良好。
附图说明
图1是自动挖掘对应施引片段和被引文献原文内容片段的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
相关概念描述:
施引片段:论文正文中以明确方式引用了参考文献的句子,句子的分隔符号为中英文句号.
参考文献:论文正文后以顺序编码方式列出的被引用文献及相关信息,不包括尾注,脚注等其他形式.
被引文献原文内容片段:参考文献正文中的句子,句子的分隔符号为中英文句号.
如图1所示,为自动挖掘对应施引片段和被引文献原文内容片段的方法流程,所述方法包括:
步骤10从论文中抽取引用了参考文献的句子作为施引片段;
从论文中抽取出以明确方式引用了参考文献的句子作为施引片段,句子的分隔符号为中英文句号。
步骤20对施引片断所引用的参考文献进行分句并编号;
根据中英文句号将参考文献切分为句子,并将将句子编号为A{S1…Sj}。由于英文句号与数学小数点,e.g等特殊符号相同,故设计如下分步处理方法:依次通过三个正则表达式来判断是否应当分句.
‘(?!\D\.\))(?!\D\.\])(?!l\.,)(?!e\.g)(?![A-Z]\.\D)(\D\.(?!@)\D)’
‘(?!e\.\d)(?!g\.\d)(\D\.(?!@)\d)’
‘。’
步骤30对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;
对施引片段和参考文献中的每个句子进行分词,形成施引片段词组Cn{w1…wm}和参考文献句子词组Sj{w1…wk},逐个计算施引片断和参考文献句子的相似度,具体计算方法如下:
Sim=len(Sj{w1…wk}∩Cn{w1…wm})*2/(len(Sj{w1…wk})+len(Cn{w1…wm}))
在上述公式中
len(Sj{w1…wk}∩Cn{w1…wm})为参考文献的一个句子Sj和施引片断Cn相同的词语数目
len(Sj{w1…wk})为参考文献中某个句子Sj的词语数目
len(Cn{w1…wm})为引文片断Cn的词语数目。
步骤40根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。
相似度计算实例说明
(1)施引片段:
王新安等[16]研究发现大菱鲆的体重主要由体长、体高和体厚3个长度性状决定。
(2)参考文献句子:
S1.S2…说明所保留的大菱鲆表型性状全长、体高、体厚是影响体重的重点性状,其它尚未测度的性状和已剔除的性状对体重的影响相对较小。…Sn-1.Sn
(3)施引片段分词
王/n新安/n等/u[/w 16/m]/w研究/v发现/v大/a菱/n鲆/x的/u体重/n主要/d由/p体/n长/a、/w体/n高/a和/c体/n厚/a 3/n个/q长度/n性状/n决定/v./w len=29
(4)参考文献句子分词:
说明/v所/u保留/v的/u大/a菱/g鲆/x表型/n性状/n全长/n、/w体/g高/a、/w体/g厚/a是/v影响/v体重/n的/u重点/n性状/n,/w其它/r尚未/d测度/v的/u性状/n和/c已/d剔除/v的/u性状/n对/p体重/n的/u影响/v相对/d较/d小/a。/w len=41。
(5)相同词语:
大/a菱/n鲆/x的/u体重/n体/n体/n高/a体/n厚/a性状/n len=11
(6)句子相似度
Sim=11*2/(29+41)=0.3142
上述实施例提供的方法无需预先准备语料训练,计算复杂度较低,能灵活实现多种相似度计算方法,实现了较高的准确率和召回率,其准确率和召回率分别达到27.3%、77.8%。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种自动挖掘对应施引片段和被引文献原文内容片段的方法,其特征在于,所述方法包括如下步骤:
A从论文中抽取引用了参考文献的句子作为施引片段;
B对施引片断所引用的参考文献进行分句并编号;
C对施引片断中和参考文献中的每个句子进行分词,形成施引片断词组和参考文献句子词组,并计算施引片断和参考文献句子的相似度;
D根据计算的句子的相似度,对句子进行排序,并抽取出和施引片断相似度排在第一位的参考文献中的句子,将抽取的所述句子作为与施引片断对应的被引文献原文内容片断。
2.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法,其特征在于,所述步骤A中句子的分隔符号为中英文句号。
3.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法,其特征在于,所述步骤B中:根据中英文句号对参考文献进行句子切分。
4.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法,其特征在于,所述句子相似度计算方法包括:对句子分词,形成词组串,计算词组串中的相同词语来计算句子的相似度。
5.如权利要求1所述的自动挖掘对应施引片段和被引文献原文内容片段的方法,其特征在于,所述步骤D中,参考文献中句子的抽取还根据施引片断相似度得分超过一定阈值的参考文献中的句子,作为与施引片断对应的被引文献原文内容片断。
CN201610452862.7A 2016-06-21 2016-06-21 一种自动挖掘对应施引片段和被引文献原文内容片段的方法 Pending CN106126497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610452862.7A CN106126497A (zh) 2016-06-21 2016-06-21 一种自动挖掘对应施引片段和被引文献原文内容片段的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610452862.7A CN106126497A (zh) 2016-06-21 2016-06-21 一种自动挖掘对应施引片段和被引文献原文内容片段的方法

Publications (1)

Publication Number Publication Date
CN106126497A true CN106126497A (zh) 2016-11-16

Family

ID=57470490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610452862.7A Pending CN106126497A (zh) 2016-06-21 2016-06-21 一种自动挖掘对应施引片段和被引文献原文内容片段的方法

Country Status (1)

Country Link
CN (1) CN106126497A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731285A (zh) * 2017-05-10 2018-02-23 上海明品医药科技有限公司 一种分级教育系统教育贡献度计算方法
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN109241521A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于引用关系的科技文献高关注度句子提取方法
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295543B1 (en) * 1996-04-03 2001-09-25 Siemens Aktiengesellshaft Method of automatically classifying a text appearing in a document when said text has been converted into digital data
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295543B1 (en) * 1996-04-03 2001-09-25 Siemens Aktiengesellshaft Method of automatically classifying a text appearing in a document when said text has been converted into digital data
CN101539904A (zh) * 2009-04-21 2009-09-23 武汉大学 一种引文自动标引方法
CN104376024A (zh) * 2013-08-16 2015-02-25 交通运输部科学研究院 一种基于种子词的文档相似性检测方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARMAN COHAN 等: "Towards Citation-Based Summarization of Biomedical Literature", 《PROCEEDINGS OF THE TEXT ANALYSIS CONFERENCE》 *
DIEGO MOLL´A 等: "Impact of Citing Papers for Summarisation of Clinical Documents", 《IN PROCEEDINGS OF AUSTRALASIAN LANGUAGE TECHNOLOGY ASSOCIATION WORKSHOP》 *
吕学强 等: "句子相似模型和最相似句子查找算法", 《东北大学学报( 自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731285A (zh) * 2017-05-10 2018-02-23 上海明品医药科技有限公司 一种分级教育系统教育贡献度计算方法
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108573045B (zh) * 2018-04-18 2021-12-24 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN109241521A (zh) * 2018-07-27 2019-01-18 中山大学 一种基于引用关系的科技文献高关注度句子提取方法
CN109241521B (zh) * 2018-07-27 2023-06-20 中山大学 一种基于引用关系的科技文献高关注度句子提取方法
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116561605B (zh) * 2023-06-01 2023-10-24 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN107168955B (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN106484664A (zh) 一种短文本间相似度计算方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN103631858B (zh) 一种科技项目相似度计算方法
CN110377724A (zh) 一种基于数据挖掘的语料库关键词自动抽取算法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN107180025A (zh) 一种新词的识别方法及装置
CN106126497A (zh) 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN103729456B (zh) 一种基于微博群环境的微博多模态情感分析方法
CN105573979B (zh) 一种基于汉字混淆集的错字词知识生成方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN104317965A (zh) 基于语料的情感词典构建方法
CN108419123A (zh) 一种教学视频的虚拟切片方法
CN108334493A (zh) 一种基于神经网络的题目知识点自动提取方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN108845982A (zh) 一种基于词的关联特征的中文分词方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication