CN109241521A - 一种基于引用关系的科技文献高关注度句子提取方法 - Google Patents
一种基于引用关系的科技文献高关注度句子提取方法 Download PDFInfo
- Publication number
- CN109241521A CN109241521A CN201810847079.XA CN201810847079A CN109241521A CN 109241521 A CN109241521 A CN 109241521A CN 201810847079 A CN201810847079 A CN 201810847079A CN 109241521 A CN109241521 A CN 109241521A
- Authority
- CN
- China
- Prior art keywords
- sentence
- attention rate
- high attention
- similarity
- quotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 7
- 238000010801 machine learning Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及句子级知识抽取的技术领域,更具体地,涉及一种基于引用关系的科技文献高关注度句子提取方法。本发明的主要步骤包括:对领域文档集预处理工作、统计高被引文章、提取高关注度句子以及CNN句子分类器训练。本发明提出一种更具客观性和适用性的科技论文高关注度句子提取方法,以所要研究的某一学科领域的大量科技文献为对象,基于引文分析研究方法,统计高被引文献,从中进行相应引证句子的相似度匹配,提取出相似度高的句子组成高关注度句子集;接着,对高关注度句子进行词性标注,使用标注序列集作为训练语料,通过CNN的训练,得到能自动识别论文中创新点句子的分类器。
Description
技术领域
本发明涉及句子级知识抽取的技术领域,更具体地,涉及一种基于引用关系的科技文献高关注度句子提取方法。
背景技术
识别科技文献中的高关注度句子属于句子级知识抽取的研究范畴。传统的知识抽取方式大多以规则和学习为基础,而随着大数据时代的到来,知识抽取的对象多且复杂,国内外开始采用机器学习和自然语言分析技术相结合的方法。基于机器学习的知识抽取系统,提出了自适应的信息抽取(Adaptive IE)、开放信息抽取(Open IE)等新的技术思路,并向着自动本体学习(Ontology Learning)的方向发展;而基于自然语言分析的知识抽取系统,则提出了基于模式标注(Pattern-Based Annotation)、语义标注(SemanticAnnotation)等新的技术思路,并且都在向着基于Ontology的信息抽取(OBIE)的方向发展。
具体到针对科技文献创新点的抽取,目前采用的方法主要有基于语言学特征的方法、基于本体或词表的方法以及基于句子分类的方法三种。
(1)基于语言学特征的方法主要通过分析和选择创新点句子的语言特征进行抽取或制定相应规则抽取。但该类方法涉及到明确的语言特征和规则的选取和制定,精确度要求高,同时难以覆盖抽取目标的所有语言学现象。
(2)基于本体或词表抽取的方法认为通过词表或本体中实体之间的关联可以发现潜在的新知识。但该方法偏向词表或本体中存在的概念,对本体中没有的新概念、新术语的揭示能力较弱。然而,这些新概念、新术语正是我们所要挖掘的创新点信息。
(3)基于句子分类的方法则是将创新点信息抽取问题转化成分类问题。根据一定的创新点特征,对句子分类标注后训练分类器,利用所得分类器识别句子所属类别。分类器的分类效果很大程度受到标注集的影响,而创新点句子的分类特征(如词频、句长、动词特征、元话语特征、线索词、作者新贡献等)的选取又根据研究对象、研究目的等的不同而不同。
方法(1)、(2)主要通过基于规则,尤其是语法规则的方法。但是,使用基于规则的方法处理NLP任务时,往往需要语言学家等各种专家的配合,研究工作强度大。并且,基于规则的语言模型不能通过机器学习的方法自动地获得,无法使用计算机自动地进行泛化。这在如今大数据的时代很难得到实际应用。
方法(3)中一个关键问题是创新点句子训练集的选取。判断是否可作为训练语料的各种特征、规则等的人为主观决定会影响到语料的内容和质量,进而影响训练效果。即使有一定的规则可参照,在人工对逐个句子进行判断时,实际上经常难以明确地定论该句子是否符合规则。在这种基于语料库的训练方法中一个好的训练集是关键,而选取训练文本的问题之一是难以有一个统一的且便于计量的标准。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于引用关系的科技文献高关注度句子提取方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于引用关系的科技文献高关注度句子提取方法,包括以下步骤:
S1:对领域文档集做相关预处理工作,所述预处理工作包括核对以及统一正文中的引用标注,保证领域文档集与参考文献一一匹配,同时便于后续试验的统一处理,所述预处理工作还包括对领域文档集中论文进行分句处理;
S2:根据参考文献列表对文章被引次数进行统计,根据被引次数分布情况确定一个被引量阈值,取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象;同时提取出高被引文章对应的引述句子,用于下一步高被引文章中高关注度句子的提取;
S3:基于LSI潜在语义索引模型训练文本并计算句子的相似度,设定相似度阈值,从高被引文章中找出与对应引述句子有最高句子相似度且该相似度达到相似度阈值的句子,加入到高关注度句子训练集;
S4:利用自然语言处理工具包NLTK中的词性标注器对高关注度句子和非高关注度句子进行词性标注,对高关注句子和非高关注句子分别加以标签1和0;输入词性符号序列和对应标签,进行CNN训练得到高关注度句子的分类器。
在本技术方案中,在所述步骤S3中,通过相似度阈值的设定,过滤掉无意义的引用,筛选出被高度关注、引用的创新点信息;在高被引文章中也会进行引用,并且可能由于与其对应引述句子涉及的内容高度相关或引用同一篇文章而被匹配出来,但这类高被引文章中含其他引用的句子将不纳入高关注句子集。
与现有技术相比,本发明的有益效果是:
本发明提出一种更具客观性和适用性的科技论文高关注度句子提取方法,以所要研究的某一学科领域的大量科技文献为对象,基于引文分析研究方法,统计高被引文献,从中进行相应引证句子的相似度匹配,提取出相似度高的句子组成高关注度句子集;接着,对高关注度句子进行词性标注,使用标注序列集作为训练语料,通过CNN的训练,能得到自动识别论文中创新点句子的分类器。
附图说明
图1为本发明一种基于引用关系的科技文献高关注度句子提取方法的流程示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1为本发明一种基于引用关系的科技文献高关注度句子提取方法的第一实施例,一种基于引用关系的科技文献高关注度句子提取方法,包括以下步骤:
S1:对领域文档集做相关预处理工作,所述预处理工作包括核对以及统一正文中的引用标注,保证领域文档集与参考文献一一匹配,同时便于后续试验的统一处理,所述预处理工作还包括对领域文档集中论文进行分句处理;
S2:根据参考文献列表对文章被引次数进行统计,根据被引次数分布情况确定一个被引量阈值,取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象;同时提取出高被引文章对应的引述句子,用于下一步高被引文章中高关注度句子的提取;
S3:基于LSI潜在语义索引模型训练文本并计算句子的相似度,设定相似度阈值,从高被引文章中找出与对应引述句子有最高句子相似度且该相似度达到相似度阈值的句子,加入到高关注度句子训练集;
S4:利用自然语言处理工具包NLTK中的词性标注器对高关注度句子和非高关注度句子进行词性标注,对高关注句子和非高关注句子分别加以标签1和0;输入词性符号序列和对应标签,进行CNN训练得到高关注度句子的分类器。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于引用关系的科技文献高关注度句子提取方法,其特征在于,包括以下步骤:
S1:对领域文档集做相关预处理工作,所述预处理工作包括核对以及统一正文中的引用标注,保证领域文档集与参考文献一一匹配,同时便于后续试验的统一处理,所述预处理工作还包括对领域文档集中论文进行分句处理;
S2:根据参考文献列表对文章被引次数进行统计,根据被引次数分布情况确定一个被引量阈值,取被引量大于阈值的高被引文章作为进一步抽取高关注度句子的文本对象;同时提取出高被引文章对应的引述句子,用于下一步高被引文章中高关注度句子的提取;
S3:基于LSI潜在语义索引模型训练文本并计算句子的相似度,设定相似度阈值,从高被引文章中找出与对应引述句子有最高句子相似度且该相似度达到相似度阈值的句子,加入到高关注度句子训练集;
S4:利用自然语言处理工具包NLTK中的词性标注器对高关注度句子和非高关注度句子进行词性标注,对高关注句子和非高关注句子分别加以标签1和0;输入词性符号序列和对应标签,进行CNN训练得到高关注度句子的分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847079.XA CN109241521B (zh) | 2018-07-27 | 2018-07-27 | 一种基于引用关系的科技文献高关注度句子提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847079.XA CN109241521B (zh) | 2018-07-27 | 2018-07-27 | 一种基于引用关系的科技文献高关注度句子提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241521A true CN109241521A (zh) | 2019-01-18 |
CN109241521B CN109241521B (zh) | 2023-06-20 |
Family
ID=65073175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810847079.XA Active CN109241521B (zh) | 2018-07-27 | 2018-07-27 | 一种基于引用关系的科技文献高关注度句子提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241521B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506696A (zh) * | 2020-03-03 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
CN111597793A (zh) * | 2020-04-20 | 2020-08-28 | 中山大学 | 基于sao-adv结构的论文创新性的测度方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126497A (zh) * | 2016-06-21 | 2016-11-16 | 同方知网数字出版技术股份有限公司 | 一种自动挖掘对应施引片段和被引文献原文内容片段的方法 |
CN107153664A (zh) * | 2016-03-04 | 2017-09-12 | 同方知网(北京)技术有限公司 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
CN107153635A (zh) * | 2016-03-04 | 2017-09-12 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
-
2018
- 2018-07-27 CN CN201810847079.XA patent/CN109241521B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153664A (zh) * | 2016-03-04 | 2017-09-12 | 同方知网(北京)技术有限公司 | 一种基于组合特征加权的科技文献标注精简研究结论的方法流程 |
CN107153635A (zh) * | 2016-03-04 | 2017-09-12 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种自动提取论文引用内容及对应文后参考文献的方法和系统 |
CN106126497A (zh) * | 2016-06-21 | 2016-11-16 | 同方知网数字出版技术股份有限公司 | 一种自动挖掘对应施引片段和被引文献原文内容片段的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506696A (zh) * | 2020-03-03 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
CN111597793A (zh) * | 2020-04-20 | 2020-08-28 | 中山大学 | 基于sao-adv结构的论文创新性的测度方法 |
CN111597793B (zh) * | 2020-04-20 | 2023-06-16 | 中山大学 | 基于sao-adv结构的论文创新性的测度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109241521B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
Kaur et al. | A survey of named entity recognition in English and other Indian languages | |
Hussain et al. | Using linguistic knowledge to classify non-functional requirements in SRS documents | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
CN103294664A (zh) | 开放领域新词发现的方法及系统 | |
Bam et al. | Named entity recognition for nepali text using support vector machines | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN105912720B (zh) | 一种计算机中涉及情感的文本数据分析方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN109241521A (zh) | 一种基于引用关系的科技文献高关注度句子提取方法 | |
Pinnis | Latvian and Lithuanian named entity recognition with TildeNER | |
Yousif | Hidden Markov Model tagger for applications based Arabic text: A review | |
Tedla et al. | Analyzing word embeddings and improving POS tagger of tigrinya | |
Badam et al. | Aletheia: A fake news detection system for Hindi | |
CN110888940B (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
Aldumaykhi et al. | Comparing open arabic named entity recognition tools | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
Lahbari et al. | A rule-based method for Arabic question classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |