CN105653590B

CN105653590B - 一种中文文献作者重名消歧的方法

Info

Publication number: CN105653590B
Application number: CN201510969129.8A
Authority: CN
Inventors: 孙星恺; 陆浩; 袁勇; 王飞跃; 关晓炟; 吕宏强
Original assignee: Qingdao Intelligent Industry Institute For Research And Technology
Current assignee: Qingdao Intelligent Industry Institute For Research And Technology
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2019-03-26
Anticipated expiration: 2035-12-21
Also published as: CN105653590A

Abstract

本发明公开了一种中文文献作者重名消歧的方法，该方法包括：对文献数据集进行规范化预处理；作者初次抽取及形式化表达；对有重名歧义的作者根据其基础属性计算两两间的基础属性相似度得分；构建重名作者关键词关系对应表并计算关键词相似度得分；对重名作者建立合作关系网络并计算两两间的合作关系相似度得分；根据相关基础属性、关键词及合作关系网络计算综合相似度指数进行重名作者判定；根据判定结果更新作者相关信息。通过本发明可以实现对中文文献中存在的作者重名现象进行消歧，为通过学术文献分析进而应用在科技评价、学术研究等方面提供了一种提高学术分析精准化程度的方法。

Description

一种中文文献作者重名消歧的方法

技术领域

本发明属于文献处理领域，尤其涉及一种中文文献作者重名消歧的方法。

背景技术

目前随着在线文献数据库的不断丰富和发展，越来越多的学者以及相关机构企业单位开始注重通过文献分析的方法了解领域最新科研动态，掌握同行或竞争对手的科技活动动向。在此基础上进一步研究发现领域重点及热点问题，把握领域发展概貌，辅助科技决策与学术评价。然而通过设置特定关键词、作者、期刊方向等进而获取到相关领域文献后，在进行文献分析时都普遍存在文献作者重名的问题，而仅仅通过相关机构属性，因为在线文献数据库的标注、作者在文献中机构标注不统一存在作者无法准确定位的问题，同时对已对应机构的作者重名，以及由于作者自己工作单位更换等原因造成的重名但机构不统一等问题影响着文献分析结果的质量。

针对以上的相关问题，现有技术主要通过以下方法来解决：(1)、有监督的作者消歧方法：需要先标注好训练样例数据，然后在此基础上创建分类模型，进而判断新出现的作者与样例中的作者是否属于同一作者。通常此方法消歧效果较好，但在实际使用中人工给大规模的文献数据进行标注要耗费大量时间，不切实际，实际应用的意义不大。(2)、无监督的作者消歧方法：通常采用聚类的方法实现。首先利用文献相关的属性特征，计算出所有数据点的相似度，通过特定的聚类算法得到的聚类团簇就是最后的消歧结果。除了传统的聚类方法，如层次聚类、谱聚类等外，还有学者应用网络图的方法。无监督的消歧方法因为不需要训练数据，不需要人工标注，具有较好的实用性。(3)、半监督的作者消歧方法，即以少量的标注数据指导大量的未标注数据。但无监督方法中一般采用的聚类算法中预先设定的聚类团数通常是不可预知的，同时现有的方法体系中没有综合考虑多种特征来解决作者消歧问题。

发明内容

本发明克服现有中文文献作者消歧方法的不足，提供了一种中文文献作者重名消歧的方法。该方法和系统可综合利用文献的多种特征，采用特征加权的方法实现重名作者的消歧。本发明可直接应用中文文献的作者消歧，为通过学术文献分析进而应用在科技评价、学术研究等方面提供了一种提高学术分析精准化程度的方法。本发明的具体技术方案为：

一种中文文献作者重名消歧的方法，包括以下步骤：

步骤一：数据规范化处理：将采集到的中文文献数据集PS，其中的每篇文献记作P，采集P的相关属性并对其做规范化处理，采用向量形式化表达其基础属性集，记作P_info，P_info＝(P_title，P_author，P_{author_en}，P_institution，P_keyword，P_abstract，P_pubtime，P_journal)；

其中：P_title为该篇文献的标题；

P_author为该篇文献的作者；

P_{author_en}为该篇文献的作者英文说明信息；

P_institution为该篇文献的机构；

P_keyword为该篇文献的关键词；

P_abstract为该篇文献的摘要；

P_pubtime为该篇文献的发表时间；

P_journal为该篇文献的来源期刊。

步骤二：作者初次抽取及形式化表达：根据每篇P作者P_author和P_{author_en}的基础属性，抽取作者信息，初步建立作者与机构的匹配，采用向量形式化表示每位作者相关信息，记作A_info，A_info＝(A_instituion，A_keywords，A_{collaborators}，A_pset)；同时将有把有重名的作者对象放入一个列表中，记作A_list，将所有待处理的重名作者集合放入列表A_processSet中；对每一个A_listi中的两两之间进行以下步骤三至七：

其中：A_instituion为该文献标注的作者的机构；

A_keywords为该作者的文章关键词表；

A_{collaborators}为该作者的合作者列表：

A_pset为该作者在PS中的文献对象集合。

A_list＝{A₁，A₂，A₃，…A_k}，k≥2。是本作者姓名重名的个数，k。

A_processSet＝{A_list1，A_list2，A_list3，…，A_listn}；n是PS中所有有重名的作者列表的个数。作者消歧的目标就是使得A_processSet中每一个A_listi中的k值尽量等于或逼近真实的作者个数tk。

步骤三：计算重名作者的相关基础属性特征相似度：根据选取作者机构特征、期刊特征与标题(摘要)特征，用概率论计算重名作者的机构相似度得分Simscore_insti，根据期刊种类预定义期刊之间的相似度计算期刊相关度得分Simscore_journal，根据向量空间模型VSN与余弦计算标题(摘要)相似度得分Simscore_{title&abstract}，根据预定义的特征权重动态调正后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围；

步骤四：计算重名作者的关键词特征相似度得分：对重名作者，根据其文献在PS中的文献对象集合A_pset中文献关键词，抽取作者文献关键词对应表并统计每个关键词的词频，计算重名作者间的文章关键词相似度并对计算结果归一化；

步骤五：计算重名作者的合作者关系特征相似度得分：对重名作者，根据其A_pset中文献的合作作者，构建其合作关系表，每个合作作者统计合作次数、合作时间，设定A_collaborators。计算合作者关系特征相似度得分并对计算结果归一化；

步骤六：计算综合相似指数并重名消歧：综合重名作者的基础属性特征相似度得分，文章关键词特征相似度得分，合作者关系特征相似度得分，对三项得分进行加权计算综合相似指数；然后根据计算结果与预定义的阈值进行比较，对于超过阈值的两个作者判定为同一作者；

步骤七：作者信息更新：对经过步骤106判断为同一作者的两个作者对象进行融合，删除其中一个作者对象，然后更新保留作者的各项属性，包括作者机构、文献集合、合作者集合、关键词集合等。对每一个重名作者列表中的作者重复步骤103到107：直到每一个重名列表中的作者两两之间的相似度得分均低于融合阈值，程序结束。

优化地，所述步骤一中相关属性规范处理前要先对其进行过滤，过滤方法主要采用过滤掉重要基础属性丢失的文献，包括没有机构信息、没有关键词信息等。

优化地，所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级抽取并标注保存，预定义的三级机构划分如下：一级机构：大学、科研院所、集团等；二级机构：大学学院、科研院所下级直属单位、集团分公司等；三级机构：大学院系、实验室、具体分公司部门等。

优化地，所述步骤一中的文章发表时间，规范化处理时只保留其发表年份。

优化地，所述步骤二中对每个作者对象设定其相关基础属性，对于文章作者所属机构有标注的文章，设定并标注其机构信息；对于隶属于多家机构的作者，根据标注前后顺序进行保存，同时保存对应机构的级别；对所属机构无标注的文章，临时设定文章的机构作为其每个作者的机构。

优化地，所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。

优化地，所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题与摘要中的副词、虚词与数词；具体的算法为：设作者A_i，A_j的标题与摘要经过预处理(分词、去停用词等)后的词序列分别为W_i(W_i1，W_i2，W_i3，...W_im)与W_j(W_j1，W_j2，W_j3，...W_jn)，则W_i与W_j的相似度计算公式为：

其中，W_ik、W_jk分别表示W_i和W_j第k个特征项的权值。

一般情况下，根据概率论来计算机构相似度得分Simscore_insti。机构信息越详细(三级机构)如果两个作者的信息相同，则为同一个人的概率更大。首先比较一级机构，如果一级机构一样；再分别匹配二级机构与三级机构。定义为如果一级机构相同，则机构相似度为90，如果到二级机构相同，则相似度得分为95，如果三级机构相同，则为100。都不同相同则为0。

一般情况下，期刊相似度Simscore_journal的得分也通过概率论来计算。，作者发文相对会集中在领域相关的几个特定的期刊上，因此可以将期刊作为作者消歧的一个基础属性特征。期刊之间的相似度计算需要预先定义期刊之间的相似度表，由于期刊种类繁多，人工定义相似度存在较大的工作量和随机误差，因此这里采用从CNKI期刊库里根据期刊所属学科领域采集相关期刊列表，期刊大类分为“自然科学与工程技术”与“人文社会科学”，共包含8260种期刊，基本覆盖国内中文绝大部分期刊。同时，每个大类下又分为若干二级类别，如“自然科学与工程技术”类目下包含：基础科学、工程科技I、工程科技II、农业科技、医药卫生科技、信息科技6个类目。二级类目下又分为三级类目，如“信息科技”分为：电子信息科学综合、无线电电子学、电信技术、计算机硬件技术等11个三级类别。定义期刊间的相似度如下：两本期刊如果只同属一样的一级大类则相关度为40；如果所属的二级类目也相同，则相关度增为60；如果所属的三级类目也相同，则相关度增为80。

优化地，所述步骤三中基础属性得分为

Simscore_basic(A_i，A_j)＝Simscore_insti*α+Simscore_journal*β+Simscore_{title&abstract}*γ，其中，α，β，γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子，可以根据使用者需求自行设定，随后对计算结果归一化到0-100点区间范围。归一化的计算为Simscore_basic＝Simscore_basic/100。

优化地，所述步骤四中文章关键词的算法采用完全匹配法。

定义两个重名作者的文章关键词相同数目为key_num(A_i，A_j)：

key_num(A_i，A_j)＝|A_i-keywords∩A_j-keywords|

然后定义归一化的关键词特征的相似度Simscore_keyword(A_i，A_i)：

分别为A_i-keywords与A_j-keywords的关键词个数。

优化地，一般认为，如果两篇文献拥有共同的合作者，则很有可能属于同一个同名作者。合作者重复越多，相似性越大，为同一个作者的几率越大。基于此，所述步骤五中合作作者特征相似度的计算为：co_num(A_i，A_j)＝|A_{i-collaborators}∩A_{j-collaborators}|。

然后定义归一化的合作者特征的相似度Simscore_coauthor(A_i，A_j)：

分别为A_{i-collaborators}与A_{j-collaborators}的作者个数。

优化地，所述步骤六中两个重名作者的综合相似度得分为

Simscore(A_i，A_j)＝Simscore_basic(A_i，A_j)*α₁+Simscore_keyword(A_i，A_j)*α₂+Simscore_coauthor(A_i，A_j)*α₃，其中α₁，α₂，α₃分别为基础属性特征、关键词特征、合作作者的权重，可以根据使用者需求自行设定。

记θ为相似度判断阈值，即若Simscore(A_i，A_j)≥θ，则判断A_i，A_j为同一作者，转到步骤107。Simscore(A_i，A_j)＜θ则判断A_i，A_j为不同作者，不进行合并。如果仍有未处理的重名作者，取出重名作者集中下一个作者，转到步骤103，否则结束。θ的设定同样根据用户实际需求，通过多次测试进行设定，一般取0.9-1。

附图说明：

图1是本发明方法流程示意图；

图2是本发明方法具体操作的示意图

具体实施方式

本发明中，用户可以根据其关注的领域，使用设定关键词、指定相关期刊、设定领域分类方向、起止年份等方式在CNKI、万方等文献平台采集相关中文文献数据集，记作PS。一般情况下，平台中可以看到的文章属性都可以采集到，包括文献的标题、作者、机构、摘要、关键词、期刊、发表时间等，默认采集所有基础属性，不下载正文。PS中的每篇文献记作P，由于采集的个别属性表达方式上的多样性以及平台本身对个别录入文献的不规范性，需要对PS进行初步过滤以及对过滤后的每篇有效文献P的相关属性，包括作者、机构、关键词等进行规范化处理。过滤方法主要采用过滤掉重要基础属性丢失的文献，包括没有机构信息、没有关键词信息等。由于每篇文献由于作者的习惯等标注的机构信息也具有多样性，需要对机构信息进行处理，根据预定义的三级机构信息分级抽取并标注。机构分级定义如下：大学、科研院所、集团等属于一级机构，大学学院、科研院所下级直属单位、集团分公司等属于二级机构，大学院系、实验室、具体分公司部门等属于三级机构。

对每篇文献采集的机构通过命名实体识别以及文字处理匹配等处理后分级保存。对文章发表时间只保留年份。

然后按照本发明的具体方法进行作者重名消歧。其中，CNKI中使用作者英文信息进行机构标号，万方则直接在中文作者姓名后标注机构标号，对于隶属于多家机构的作者，根据标注前后顺序进行保存，同时保存对应机构的级别。对于无标注的作者，临时设定文章的所有机构信息作为其每个作者的机构。根据每篇文章的作者共现关系，设定其合作作者列表。根据每篇文章的关键词信息，设定对应作者的关键词，同时每个关键词对象包括关键词名称以及次序(第一关键词、第二关键词等)。

优化地，本发明所述的因子可取：α＝0.8，β＝0.1，γ＝0.1，α₁＝0.4，α₂＝0.3，α₃＝0.4。

Claims

1.一种中文文献作者重名消歧的方法，其特征在于：包括以下步骤：

步骤一：数据规范化处理：将采集到的中文文献数据集PS，其中的每篇文献记作P，采集P的相关属性并对其做规范化处理，采用向量形式化表达其基础属性集，记作P_info，P_info＝(P_title,P_author,P_{author_en},P_institution,P_keyword,P_abstract,P_pubtime,P_journal)；其中：

P_title为该篇文献的标题；

P_author为该篇文献的作者；

P_{author_en}为该篇文献的作者英文说明信息；

P_institution为每篇文献的机构；

P_keyword为该篇文献的关键词；

P_abstract为该篇文献的摘要；

P_pubtime为该篇文献的发表时间；

P_journal为每篇文献的来源期刊；

步骤二：作者初次抽取及形式化表达：根据每篇P作者P_author和P_{author_en}的基础属性，抽取作者信息，初步建立作者与机构的匹配，采用向量形式化表示每位作者相关信息，记作A_info,A_info＝(A_institution,A_keywords,A_{collaborators},A_pset)；同时将有把有重名的作者对象放入一个列表中，记作A_list，将所有待处理的重名作者集合放入列表A_processSet中；对每一个A_list中的两两之间进行以下步骤三至七；其中：

A_institution为该文献标注的作者的机构；

A_keywords为该作者的文章关键词表；

A_collaborator为该作者的合作者列表；

A_pset为该作者在PS中的文献对象集合；

步骤三：计算重名作者的相关基础属性特征相似度：根据选取作者机构特征、期刊特征与标题与摘要特征，用概率论计算重名作者的机构相似度得分Simscore_insti，根据期刊种类预定义期刊之间的相似度计算期刊相关度得分Simscore_journal，根据向量空间模型VSN与余弦计算标题与摘要相似度得分Simscore_{title&abstract}，根据预定义的特征权重动态调正后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围；

步骤五：计算重名作者的合作者关系特征相似度得分：对重名作者，根据其A_pset中文献的合作作者，构建其合作关系表，每个合作作者统计合作次数、合作时间，设定A_collaborators，计算合作者关系特征相似度得分并对计算结果归一化；

步骤七：作者信息更新：对经过步骤106判断为同一作者的两个作者对象进行融合，删除其中一个作者对象，然后更新保留作者的各项属性，包括作者机构、文献集合、合作者集合、关键词集合，对每一个重名作者列表中的作者重复步骤103到107：直到每一个重名列表中的作者两两之间的相似度得分均低于融合阈值，程序结束。

2.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤一中相关属性规范处理前要先对其进行过滤，过滤方法主要采用过滤掉重要基础属性丢失的文献，包括没有机构信息、没有关键词信息。

3.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级抽取并标注保存，预定义的三级机构划分如下：一级机构：大学、科研院所、集团；二级机构：大学学院、科研院所下级直属单位、集团分公司；三级机构：大学院系、实验室、具体分公司部门。

4.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤一中的文章发表时间，规范化处理时只保留其发表年份。

5.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤二中对每个作者对象设定其相关基础属性，对于文章作者所属机构有标注的文章，设定并标注其机构信息；对于隶属于多家机构的作者，根据标注前后顺序进行保存，同时保存对应机构的级别；对所属机构无标注的文章，临时设定文章的机构作为其每个作者的机构。

6.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。

7.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题与摘要中的副词、虚词与数词；具体的算法为：设作者A_i，A_j的标题与摘要经过预处理包括分词、去停用词后的词序列分别为W_i(W_i1,W_i2,W_i3,…W_im)与W_j(W_j1,W_j2,W_j3,…W_jn),则W_i与W_j的相似度计算公式为：

其中，W_ik、W_jk分别表示W_i和W_j第k个特征项的权值。

8.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤三中基础属性得分为Simscore_basic(A_i，A_j)＝Simscore_insti*α+Simscore_journal*β+Simscore_title&ab _stract*γ，其中α,β,γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子，可以根据使用者需求自行设定，随后对计算结果归一化到0-100点区间范围。

9.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤四中文章关键词的算法采用完全匹配法。

10.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤五中合作作者特征相似度的计算为：co_num(A_i,A_j)＝|A_{i-collaborators}∩A_{j-collaborators}|。

11.根据权利要求1所述的中文文献作者重名消歧的方法，其特征在于：所述步骤六中两个重名作者的综合相似度得分为

其中α₁,α₂,α₃分别为基础属性特征、关键词特征、合作作者的权重，可以根据使用者需求自行设定。