CN109255122A - 一种对论文引用关系分类标记的方法 - Google Patents
一种对论文引用关系分类标记的方法 Download PDFInfo
- Publication number
- CN109255122A CN109255122A CN201810884650.5A CN201810884650A CN109255122A CN 109255122 A CN109255122 A CN 109255122A CN 201810884650 A CN201810884650 A CN 201810884650A CN 109255122 A CN109255122 A CN 109255122A
- Authority
- CN
- China
- Prior art keywords
- paper
- task
- adduction relationship
- title
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种对论文引用关系分类标记的方法,所述方法包括以下步骤:S1:利用论文A标题中特定的介词,将标题分解为“方法”和“任务”两部分,其中综述类论文和划分失败的论文单独分类;S2:计算论文A的方法与论文B的标题的余弦相似度Sm,以及论文A的任务与论文B标题的相似度St;S3:基于S2的结果,将论文A对论文B的引用关系分成方法相似、任务相似等五类。本发明对论文之间的引用关系进行区分,提高对引用关系描述的准确性,提供一种基于标题分解的对论文引用关系分类标记的方法。
Description
技术领域
本发明涉及数据挖掘和自然语言处理领域,更进一步涉及一种为论文引用关系进行分类标注的数据挖掘方法。
背景技术
论文引用关系记录一篇论文对另一篇已发表的论文的引用,通常表示这两篇论文之间存在某种关联关系或相似性。在文献数据分析和挖掘的很多问题中都要用到论文之间的引用关系,比如参考文献推荐、论文归类、热点主题检测等。但是,直接拿到的论文引用关系只记录引用的存在,并不包含更细节的信息即引用关系的类型。把所有引用关系不作区分等价地对待在具体应用时会带来某些问题。因此,对论文之间的引用关系进行分类标记从而细化引用信息描述对基于引用关系的分析和挖掘具有重要意义。
发明内容
为了克服已有技术无法对论文之间的引用关系进行区分的不足,为了对论文之间的引用关系进行区分,提高对引用关系描述的准确性,本发明提供一种基于标题分解的对论文引用关系分类标记的方法。
本发明解决其技术问题所采用的技术方案是:
一种对论文引用关系分类标记的方法,所述方法包括以下步骤:
S1:利用论文A标题中特定的介词,将标题分解为“方法”和“任务”两部分,其中综述类论文和划分失败的论文单独分类
S2:计算论文A的方法与论文B的标题的余弦相似度Sm,以及论文A的任务与论文B标题的相似度St,过程如下:
其中,m和mT表示论文A方法的词向量及其转置,t和tT表示论文A任务的词向量及其转置,xb表示论文B的词向量;词向量表示基于经典的词袋模型,即向量的维度为对应词典的大小,在某个维度的值的大小表示该词在对应文本中出现的次数;
S3:基于S2的结果,将论文A对论文B的引用关系分成以下五类:
第一类:Sm>0,St=0即论文A引用论文B是因为后者与前者的方法相似;
第二类:Sm=0,St>0即论文A引用论文B是因为后者与前者的任务相似;
第三类:Sm>0,St>0,即论文A引用论文B是因为两者在方法和任务上都相似;
第四类:Sm=0,St=0,即论文A引用论文B是因为除了方法和任务之外的相关性;
第五类:论文A的类型为综述或论文A的标题无法根据以上方法分解时。
进一步,所述方法还包括以下步骤:
S4:基于以上分类的引用关系进行可视化,用有向图对论文引用关系进行可视化,节点表示论文,有向边表示引用关系。
优选的,所述步骤S4中,基于S3的分类,对引用关系网络进行图可视化,并对每条边附加以数字1到5表示的类别标签。
所述步骤S1中,介词及划分方法如下:
[方法]for[任务]
[任务]with[方法]
[任务]by[方法]
[方法]from[任务]
[任务]based on[方法]
[方法]of[任务]
[任务]using[方法]
[方法]on[任务]
[方法]in[任务]
[方法]to[任务]
[方法]as[任务]。
本发明中,对论文A对论文B的引用,通过将论文A标题分解为“方法”和“任务”两部分后进行相似度匹配来标记论文之间的引用关系。
本发明的有益效果主要表现在:对论文之间的引用关系进行区分,提高对引用关系描述的准确性。
附图说明
图1是引用类型比例饼图。对实施例Aminer数据集中71249篇论文,135391个引用关系的统计结果。
图2是论文引用关系图。
图3是具体实施例,图2中的部分放大,添加点的标号的结果。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种对论文引用关系分类标记的方法,所述方法包括以下步骤:
S1:利用论文A标题中特定的介词,将标题分解为“方法”和“任务”两部分,其中综述类论文和划分失败的论文单独分类
S2:计算论文A的方法与论文B的标题的余弦相似度Sm,以及论文A的任务与论文B标题的相似度St,过程如下:
其中,m和mT表示论文A方法的词向量及其转置,t和tT表示论文A任务的词向量及其转置,xb表示论文B的词向量;词向量表示基于经典的词袋模型,即向量的维度为对应词典的大小,在某个维度的值的大小表示该词在对应文本中出现的次数;
S3:基于S2的结果,将论文A对论文B的引用关系分成以下五类:
第一类:Sm>0,St=0即论文A引用论文B是因为后者与前者的方法相似;
第二类:Sm=0,St>0即论文A引用论文B是因为后者与前者的任务相似;
第三类:Sm>0,St>0,即论文A引用论文B是因为两者在方法和任务上都相似;
第四类:Sm=0,St=0,即论文A引用论文B是因为除了方法和任务之外的相关性;
第五类:论文A的类型为综述或论文A的标题无法根据以上方法分解时。
进一步,所述方法还包括以下步骤:
S4:基于以上分类的引用关系进行可视化,用有向图对论文引用关系进行可视化,节点表示论文,有向边表示引用关系。
优选的,所述步骤S4中,基于S3的分类,对引用关系网络进行图可视化,并对每条边附加以数字1到5表示的类别标签。
所述步骤S1中,介词及划分方法如下:
[方法]for[任务]
[任务]with[方法]
[任务]by[方法]
[方法]from[任务]
[任务]based on[方法]
[方法]of[任务]
[任务]using[方法]
[方法]on[任务]
[方法]in[任务]
[方法]to[任务]
[方法]as[任务]。
本实施例以Aminer文献数据为实施例,该方法包括以下步骤:
S1:处理存放论文标题信息的文档,根据特定介词及相应语法,将每篇论文的标题进行分解。例如图3中论文20859的标题为MINPRAN:ANew Robust Estimator for ComputerVision,检测到其中包含的特定介词for,根据语法规则,将for前的MINPRAN:ANew RobustEstimator记录为该论文的“方法”,for之后的Computer Vision记录为该论文的“任务”。同理,论文1423的标题为AHighly Robust Estimator Through Partially LikelihoodFunction Modeling and Its Application in Computer Vision,检测到介词in后,根据语法规则,将in之前的内容记录为改论文的“方法”,in之后的内容记录为改论文的“任务”。
S2:根据引用关系,计算相似度。当程序读取到论文20859引用论文1423时,计算论文20859的方法和论文1423标题的相似度、论文20859的任务和论文1423标题的相似度。计算论文A的方法与论文B的标题的余弦相似度Sm,以及论文A的任务与论文B标题的相似度St。具体方法如下:
其中m和mT表示论文A方法的词向量及其转置,t和tT表示论文A任务的词向量及其转置,xb表示论文B的词向量。词向量表示基于经典的词袋模型,即向量的维度为对应词典的大小,在某个维度的值的大小表示该词在对应文本中出现的次数。
S3:基于S2的相似度计算结果,将对应的引用关系进行标记。例如论文20859引用论文1423时,计算后得到Sm=0.316,St=0.447,由于两个相似度均大于0,因此将该引用关系标为第三类。
S4:根据S3对边的标记,对引用关系网络进行图可视化,并对每条边附加以数字1到5表示的类别标签。例如论文20859引用论文1423的边标记为3,表明,该引用是由于方法和任务均相似。
Claims (4)
1.一种对论文引用关系分类标记的方法,其特征在于,所述方法包括以下步骤:
S1:利用论文A标题中特定的介词,将标题分解为“方法”和“任务”两部分,其中综述类论文和划分失败的论文单独分类;
S2:计算论文A的方法与论文B的标题的余弦相似度Sm,以及论文A的任务与论文B标题的相似度St,过程如下:
其中,m和mT表示论文A方法的词向量及其转置,t和tT表示论文A任务的词向量及其转置,xb表示论文B的词向量;词向量表示基于经典的词袋模型,即向量的维度为对应词典的大小,在某个维度的值的大小表示该词在对应文本中出现的次数;
S3:基于S2的结果,将论文A对论文B的引用关系分成以下五类:
第一类:Sm>0,St=0即论文A引用论文B是因为后者与前者的方法相似;
第二类:Sm=0,St>0即论文A引用论文B是因为后者与前者的任务相似;
第三类:Sm>0,St>0,即论文A引用论文B是因为两者在方法和任务上都相似;
第四类:Sm=0,St=0,即论文A引用论文B是因为除了方法和任务之外的相关性;
第五类:论文A的类型为综述或论文A的标题无法根据以上方法分解时。
2.如权利要求1所述的一种对论文引用关系分类标记的方法,其特征在于,所述方法还包括以下步骤:
S4:基于以上分类的引用关系进行可视化,用有向图对论文引用关系进行可视化,节点表示论文,有向边表示引用关系。
3.如权利要求2所述的一种对论文引用关系分类标记的方法,其特征在于,所述步骤S4中,基于S3的分类,对引用关系网络进行图可视化,并对每条边附加以数字1到5表示的类别标签。
4.如权利要求1~3之一所述的一种对论文引用关系分类标记的方法,其特征在于,所述步骤S1中,介词及划分方法如下:
[方法]for[任务]
[任务]with[方法]
[任务]by[方法]
[方法]from[任务]
[任务]based on[方法]
[方法]of[任务]
[任务]using[方法]
[方法]on[任务]
[方法]in[任务]
[方法]to[任务]
[方法]as[任务]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810884650.5A CN109255122B (zh) | 2018-08-06 | 2018-08-06 | 一种对论文引用关系分类标记的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810884650.5A CN109255122B (zh) | 2018-08-06 | 2018-08-06 | 一种对论文引用关系分类标记的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255122A true CN109255122A (zh) | 2019-01-22 |
CN109255122B CN109255122B (zh) | 2023-07-11 |
Family
ID=65049199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810884650.5A Active CN109255122B (zh) | 2018-08-06 | 2018-08-06 | 一种对论文引用关系分类标记的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255122B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309917A (zh) * | 2020-03-11 | 2020-06-19 | 上海交通大学 | 基于会议期刊星系图的超大规模学术网络可视化方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530316A (zh) * | 2013-09-12 | 2014-01-22 | 浙江大学 | 一种基于多视图学习的科学主题提取方法 |
CN106844665A (zh) * | 2017-01-20 | 2017-06-13 | 中山大学 | 一种基于引用关系分布式表达的论文推荐方法 |
CN107870991A (zh) * | 2017-10-27 | 2018-04-03 | 湖南纬度信息科技有限公司 | 一种论文元数据的相似度计算方法和计算机可读存储介质 |
CN108021657A (zh) * | 2017-12-01 | 2018-05-11 | 四川大学 | 一种基于文献标题语义信息的相似作者搜索方法 |
CN108132961A (zh) * | 2017-11-06 | 2018-06-08 | 浙江工业大学 | 一种基于引用预测的参考文献推荐方法 |
-
2018
- 2018-08-06 CN CN201810884650.5A patent/CN109255122B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530316A (zh) * | 2013-09-12 | 2014-01-22 | 浙江大学 | 一种基于多视图学习的科学主题提取方法 |
CN106844665A (zh) * | 2017-01-20 | 2017-06-13 | 中山大学 | 一种基于引用关系分布式表达的论文推荐方法 |
CN107870991A (zh) * | 2017-10-27 | 2018-04-03 | 湖南纬度信息科技有限公司 | 一种论文元数据的相似度计算方法和计算机可读存储介质 |
CN108132961A (zh) * | 2017-11-06 | 2018-06-08 | 浙江工业大学 | 一种基于引用预测的参考文献推荐方法 |
CN108021657A (zh) * | 2017-12-01 | 2018-05-11 | 四川大学 | 一种基于文献标题语义信息的相似作者搜索方法 |
Non-Patent Citations (2)
Title |
---|
董建军: "参考文献引用分类标注与科技期刊和论文的评价", 《编辑学报》 * |
魏瑞斌: "论文标题特征与被引的关联性研究", 《情报学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309917A (zh) * | 2020-03-11 | 2020-06-19 | 上海交通大学 | 基于会议期刊星系图的超大规模学术网络可视化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109255122B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101464905B (zh) | 一种网页信息抽取的系统及方法 | |
EP2257896B1 (en) | Financial event and relationship extraction | |
Srinath et al. | Privacy at scale: Introducing the PrivaSeer corpus of web privacy policies | |
US9607039B2 (en) | Subject-matter analysis of tabular data | |
CN105975478A (zh) | 一种基于词向量分析的网络文章所属事件的检测方法和装置 | |
CN103299304A (zh) | 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质 | |
Merten et al. | Do information retrieval algorithms for automated traceability perform effectively on issue tracking system data? | |
CN104298714B (zh) | 一种基于异常处理的海量文本自动标注方法 | |
CN113377927A (zh) | 一种相似文档检测方法、装置、电子设备及存储介质 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN104199845B (zh) | 基于主体模型的网上评论情感分类方法 | |
Wong et al. | Wiki-reliability: A large scale dataset for content reliability on wikipedia | |
CN112948664A (zh) | 一种敏感词自动处理方法和系统 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN103365879A (zh) | 一种用于获取页面相似度的方法与设备 | |
CN107315799A (zh) | 一种互联网重复信息筛选方法及系统 | |
CN109255122A (zh) | 一种对论文引用关系分类标记的方法 | |
CN117669513A (zh) | 一种基于人工智能的数据管理系统及方法 | |
Jhandir et al. | Controversy detection in Wikipedia using semantic dissimilarity | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
KR102018819B1 (ko) | 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치 | |
Nouvel et al. | Pattern mining for named entity recognition | |
Vanderbeck et al. | A Machine Learning Approach to Identifying Sections in Legal Briefs. | |
CN103942224A (zh) | 一种获取网页分块的标注规则的方法及装置 | |
CN111651987A (zh) | 身份判别方法及装置、计算机可读存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |