CN109255122A

CN109255122A - 一种对论文引用关系分类标记的方法

Info

Publication number: CN109255122A
Application number: CN201810884650.5A
Authority: CN
Inventors: 梅建萍; 王焕梁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-22
Anticipated expiration: 2038-08-06
Also published as: CN109255122B

Abstract

一种对论文引用关系分类标记的方法，所述方法包括以下步骤：S1:利用论文A标题中特定的介词，将标题分解为“方法”和“任务”两部分，其中综述类论文和划分失败的论文单独分类；S2:计算论文A的方法与论文B的标题的余弦相似度Sm，以及论文A的任务与论文B标题的相似度St；S3:基于S2的结果，将论文A对论文B的引用关系分成方法相似、任务相似等五类。本发明对论文之间的引用关系进行区分，提高对引用关系描述的准确性，提供一种基于标题分解的对论文引用关系分类标记的方法。

Description

一种对论文引用关系分类标记的方法

技术领域

本发明涉及数据挖掘和自然语言处理领域，更进一步涉及一种为论文引用关系进行分类标注的数据挖掘方法。

背景技术

论文引用关系记录一篇论文对另一篇已发表的论文的引用，通常表示这两篇论文之间存在某种关联关系或相似性。在文献数据分析和挖掘的很多问题中都要用到论文之间的引用关系，比如参考文献推荐、论文归类、热点主题检测等。但是，直接拿到的论文引用关系只记录引用的存在，并不包含更细节的信息即引用关系的类型。把所有引用关系不作区分等价地对待在具体应用时会带来某些问题。因此，对论文之间的引用关系进行分类标记从而细化引用信息描述对基于引用关系的分析和挖掘具有重要意义。

发明内容

为了克服已有技术无法对论文之间的引用关系进行区分的不足，为了对论文之间的引用关系进行区分，提高对引用关系描述的准确性，本发明提供一种基于标题分解的对论文引用关系分类标记的方法。

本发明解决其技术问题所采用的技术方案是：

一种对论文引用关系分类标记的方法，所述方法包括以下步骤：

S1:利用论文A标题中特定的介词，将标题分解为“方法”和“任务”两部分，其中综述类论文和划分失败的论文单独分类

S2:计算论文A的方法与论文B的标题的余弦相似度Sm，以及论文A的任务与论文B标题的相似度St，过程如下：

其中，m和m^T表示论文A方法的词向量及其转置，t和t^T表示论文A任务的词向量及其转置，x_b表示论文B的词向量；词向量表示基于经典的词袋模型，即向量的维度为对应词典的大小，在某个维度的值的大小表示该词在对应文本中出现的次数；

S3:基于S2的结果，将论文A对论文B的引用关系分成以下五类：

第一类：S_m＞0，S_t＝0即论文A引用论文B是因为后者与前者的方法相似；

第二类：S_m＝0，S_t＞0即论文A引用论文B是因为后者与前者的任务相似；

第三类：S_m＞0，S_t＞0,即论文A引用论文B是因为两者在方法和任务上都相似；

第四类：S_m＝0，S_t＝0，即论文A引用论文B是因为除了方法和任务之外的相关性；

第五类：论文A的类型为综述或论文A的标题无法根据以上方法分解时。

进一步，所述方法还包括以下步骤：

S4:基于以上分类的引用关系进行可视化，用有向图对论文引用关系进行可视化，节点表示论文，有向边表示引用关系。

优选的，所述步骤S4中，基于S3的分类，对引用关系网络进行图可视化，并对每条边附加以数字1到5表示的类别标签。

所述步骤S1中，介词及划分方法如下：

[方法]for[任务]

[任务]with[方法]

[任务]by[方法]

[方法]from[任务]

[任务]based on[方法]

[方法]of[任务]

[任务]using[方法]

[方法]on[任务]

[方法]in[任务]

[方法]to[任务]

[方法]as[任务]。

本发明中，对论文A对论文B的引用，通过将论文A标题分解为“方法”和“任务”两部分后进行相似度匹配来标记论文之间的引用关系。

本发明的有益效果主要表现在：对论文之间的引用关系进行区分，提高对引用关系描述的准确性。

附图说明

图1是引用类型比例饼图。对实施例Aminer数据集中71249篇论文，135391个引用关系的统计结果。

图2是论文引用关系图。

图3是具体实施例，图2中的部分放大，添加点的标号的结果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种对论文引用关系分类标记的方法，所述方法包括以下步骤：

S3:基于S2的结果，将论文A对论文B的引用关系分成以下五类：

进一步，所述方法还包括以下步骤：

所述步骤S1中，介词及划分方法如下：

[方法]for[任务]

[任务]with[方法]

[任务]by[方法]

[方法]from[任务]

[任务]based on[方法]

[方法]of[任务]

[任务]using[方法]

[方法]on[任务]

[方法]in[任务]

[方法]to[任务]

[方法]as[任务]。

本实施例以Aminer文献数据为实施例，该方法包括以下步骤:

S1:处理存放论文标题信息的文档，根据特定介词及相应语法，将每篇论文的标题进行分解。例如图3中论文20859的标题为MINPRAN:ANew Robust Estimator for ComputerVision，检测到其中包含的特定介词for，根据语法规则，将for前的MINPRAN:ANew RobustEstimator记录为该论文的“方法”，for之后的Computer Vision记录为该论文的“任务”。同理，论文1423的标题为AHighly Robust Estimator Through Partially LikelihoodFunction Modeling and Its Application in Computer Vision，检测到介词in后，根据语法规则，将in之前的内容记录为改论文的“方法”，in之后的内容记录为改论文的“任务”。

S2:根据引用关系，计算相似度。当程序读取到论文20859引用论文1423时，计算论文20859的方法和论文1423标题的相似度、论文20859的任务和论文1423标题的相似度。计算论文A的方法与论文B的标题的余弦相似度Sm，以及论文A的任务与论文B标题的相似度St。具体方法如下：

其中m和m^T表示论文A方法的词向量及其转置，t和t^T表示论文A任务的词向量及其转置，x_b表示论文B的词向量。词向量表示基于经典的词袋模型，即向量的维度为对应词典的大小，在某个维度的值的大小表示该词在对应文本中出现的次数。

S3:基于S2的相似度计算结果，将对应的引用关系进行标记。例如论文20859引用论文1423时，计算后得到Sm＝0.316，St＝0.447，由于两个相似度均大于0，因此将该引用关系标为第三类。

S4:根据S3对边的标记，对引用关系网络进行图可视化，并对每条边附加以数字1到5表示的类别标签。例如论文20859引用论文1423的边标记为3，表明，该引用是由于方法和任务均相似。

Claims

1.一种对论文引用关系分类标记的方法，其特征在于，所述方法包括以下步骤：

S1:利用论文A标题中特定的介词，将标题分解为“方法”和“任务”两部分，其中综述类论文和划分失败的论文单独分类；

S3:基于S2的结果，将论文A对论文B的引用关系分成以下五类：

2.如权利要求1所述的一种对论文引用关系分类标记的方法，其特征在于，所述方法还包括以下步骤：

3.如权利要求2所述的一种对论文引用关系分类标记的方法，其特征在于，所述步骤S4中，基于S3的分类，对引用关系网络进行图可视化，并对每条边附加以数字1到5表示的类别标签。

4.如权利要求1～3之一所述的一种对论文引用关系分类标记的方法，其特征在于，所述步骤S1中，介词及划分方法如下：

[方法]for[任务]

[任务]with[方法]

[任务]by[方法]

[方法]from[任务]

[任务]based on[方法]

[方法]of[任务]

[任务]using[方法]

[方法]on[任务]

[方法]in[任务]

[方法]to[任务]

[方法]as[任务]。