CN107590128B

CN107590128B - 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法

Info

Publication number: CN107590128B
Application number: CN201710861485.7A
Authority: CN
Inventors: 胡婕
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2021-08-17
Anticipated expiration: 2037-09-21
Also published as: CN107590128A

Abstract

本发明涉及一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法。主要步骤：（1）先从学术搜索引擎中抽取出原始数据，提取出特征属性值，对其进行规范化处理；（2）根据规则，先形成别名组，然后根据别名组生成同形异义作者歧义组；（3）分别对各个单特征属性进行相似度计算和消歧方法的选取；（4）通过由步骤3得出的各个属性置信度评估，得出基于高置信度的特征属性层次聚类方法。应用本发明，不仅保证了姓名消歧的速度，也提高了消歧的准确率。

Description

一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法

技术领域

本发明涉及一种论文同名作者消歧方法，尤其是涉及一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法。

背景技术

当今社会人们进行学术活动在很大程度上依赖于互联网，其中很重要的原因是网络拥有资源共享的优点。如今绝大多数学术论文均以电子资源的形式存于网络数据库中，人们仅需要通过一些正当网络渠道，便可以方便查找、阅读以及下载所需要的学习资源，尤其是学术论文。伴随着人们学术研究习惯的改变，越来越多的学术搜索引擎(DLs)诞生并不断发展，它们为用户提供按作者检索论文的服务，并集中返回作者名对应的所有论文信息列表，返回信息的准确性将直接影响人们学术活动的有效性。然而，同名歧义问题一直影响着搜索的质量。集中表现为，当研究人员在DLs中按某个作者名搜索其论文时，由于绝大多数系统采用的是字符串匹配的方式查找数据库中对应的论文信息，因此，系统将返回所有跟用户输入的作者名拼写相同的作者论文。这个时候，搜索引擎返回的数据并不能保证完整性和正确性，大多数时候返回信息的正确性需要研究人员自行判断，或者需要研究人员对结果进行自行的筛选。目前，同名消歧问题越来越受到广大研究学者的重视，一系列技术和方法应运而生，然而传统的方法通常使用且仅使用包含在论文中的一些明显的属性信息，如合作作者名、出版信息、出版年份、工作地、关键词、摘要等。但随着网络资源数据的激增，面对可能出现信息缺少、信息错误和深层次歧义问题上，这些传统的方法也渐渐体现出一些限制和不足，如果同名作者歧义的问题不能很好解决，必将导致按作者名搜索时返回给用户的论文数量庞大且杂乱无章，从而给研究人员造成困扰甚至误导，降低学术活动的效率，严重时甚至影响学术研究所取得的最终结果。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法，其特征在于，包括：

步骤1、先从学术搜索引擎中抽取出原始数据，提取出特征属性值，对其进行规范化处理；

步骤2、针对步骤1得到的规范化处理后的原始数据，根据定义的规则，先形成别名组，然后根据别名组生成同形异义作者歧义组

步骤3、分别对各个单特征属性进行相似度计算和消歧方法的选取；

步骤4、通过由步骤3得出的各个属性置信度评估，进行基于高置信度的特征属性层次聚类。

在上述的一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法，所述步骤1具体是从学术搜索引擎中随机抽取出原始数据，提取其主要特征属性值，其中包括合作作者、出版单位、关键词以及标题和摘要，并规范化统一转化成小写，并剔除出那些乱码字符和无意义数据记录，具体需要满足一下处理规则：

处理规则一、从学术搜索引擎中抽取缺乏规范性的原始数据；

处理规则二、去除原始数据中视觉表现像乱码的非ASCII字符；

处理规则三、将论文数据中所有的特征值转化成小写；

处理规则四、去掉无意义值的论文记录。

在上述的一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法，所述步骤2的具体方法是：首先考虑到不同语言的特点(如附录2所示表中分别展示了不同语言体系，不同类型名字的所有可能出现的别名形式的示例)对于不同国家的作者名字采取不同的处理策略，生成所有的别名形式字符串，构成别名组；然后，获取关于作者a_i的包含别名组字符串中的任意一个作者名形式的论文记录，即为歧义组

在上述的一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法，所述步骤3具体包括以下子步骤：

步骤4.1、合作作者属性相似度函数和消歧方法的选取，具体过程为：合作作者相似度函数通过co_sim(c₁,c₂)＝|coauthor(c₁)∩coauthor(c₂)|计算一对论文之间共同的合作作者数量；处理歧义组中同一个作者的合作作者之间的传递性；采用启发式规则层次聚类方法对同名作者消歧。

步骤4.2、出版单位属性相似度函数和消歧方法的选取，具体过程为：首先获得所有论文的所有出版单位，通过相似度函数pub_sim(c₁,c₂)＝|publish(c₁)∩p b lish(c₂)|计算出版单位之间的相关性，建立相似度表；将领域和方向相近的出版单位直接分组；将出版单位属于同一分组的论文进行聚合。

步骤4.3、关键词属性相似度函数和消歧方法的选取，具体过程为：关键词相似度函数通过keyword_sim(c₁,c₂)＝|keyword(c₁)∩keyword(c₂)|计算两篇论文关键词之间的相关性；采用启发式规则层次聚类方法对同名作者消歧。

步骤4.4、标题与摘要属性相似度函数和消歧方法的选取，具体过程为：首先对标题和摘要进行分词处理，进行去停用词和高词频无用词等预处理；通过TF-IDF模型找到标题或者摘要中TF-IDF值高的关键词；通过对两篇文章的高频词词频向量计算余弦相似度，进行聚类。

在上述的一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法，所述步骤4具体包括以下子步骤：

步骤5.1、初始化原子簇集合L＝{l1,l₂,…,l_n}，令歧义组G＝{c₁,c₂,…,c_n}中每篇论文单独为簇，其中l_i.Attr_k＝c_i.Attr_k；

步骤5.2、根据算法，采用l_i.CoAuthor和l_i.Keywords对L进行聚类，得到新的原子簇集合L′＝{l′₁,l′₂,…,l′_m}，其中，对于每个原子簇l′_i＝{l_i1,l_i2,…,l_ip},i≤m，

步骤5.3、根据算法，采用l′_i.Title和l_i′.Publish对L′进行聚类，得到最终的聚类结果即为消歧结果。

因此，本发明具有如下优点：本发明针对不同的特征属性分别选择合适的相似度函数以及合适的聚类算法，单独进行消歧工作，得到特征属性的置信度排名。在每一个聚类步骤中选取置信度更高的特征属性所对应的相似度函数，与此同时采取一些启发式规则，使得每一轮层次聚类合并更多类簇，从而提高算法运行效率。按照特征属性置信度从高到低的顺序选取特征以及相应的最合适的相似度函数计算方法，还能够显著提高消歧结果的准确率，并在一定程度上提高召回率。

附图说明

图1a是本发明中原子簇生成前的歧义组示意图。

图1b是本发明中原子簇生成后的歧义组示意图。

图2是本发明中的单特征属性消歧结果示意图。

图3是本发明中的各消歧方法对比示意图。

图4是本发明的技术流程示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

下面详细描述本发明的实施例，参照附图并结合表中的数据进一步说明本发明的技术方案。

本发明所述的论文同名作者消歧方法，具体操作步骤如下：

1.数据预处理；

值得注意的是，从学术搜索引擎中抽取得来的原始数据粗糙且缺乏规范性。其中，作者的名字可能是全名表示，也可能表示为第一个名字的首字母大写的形式，而出版单位也有完整名称和缩写两种表现形式。这使得仅利用属性值进行字符串匹配的聚类方法很难计算相似度得分。所以在数据预处理步骤中，论文记录中的特征值首先按以下步骤进行标准化：

(1)去除元数据中的非ASCII字符，即视觉表现像“乱码”的字符；

(2)将论文数据中所有的特征值均转化成小写；

(3)去掉包含无意义值的论文记录，如值为负数的出版年份；

最终，共选取24个作者名共2039条学术论文信息。这些数据基本能够涵盖要求的各种情况，作者名及其论文记录数据集如表1所示。另外测试数据集均经过严格的人工标注得到论文各自的真实作者，数据集标注主要依赖于部分权威的DLs，如ACM、ArnetMiner、微软学术等中作者相关信息。

2.构建同形异义作者歧义组

数据预处理后，需要为每一个同形异义词的作者生成歧义组

为后续的消歧工作做准备。这一步将解决作者名的同义问题。对于每一个同形异义的作者名，本发明生成作者名的所有可能的拼写形式作为其别名并存储。由于文化多样性，各个语言体系的人名命名规则差异非常大。例如体现在东方国家和西方国家的命名规则上的一个明显不同，是东方国家总是把姓放在名的前面而西方国家把姓放在最后。考虑到不同语言体系的特点，本发明对于不同国家的作者名字采取不同的处理策略，具体见表2。表中分别展示了不同语言体系，不同类型名字的所有可能出现的别名的例子，包括东方国家的人名和西方国家的人名，西方国家的名字又包括一名一姓及一名两姓等。

构建歧义组

需要经过两个步骤：首先生成所有的别名形式字符串，构成别名组；接下来，获取关于作者a_i的包含别名组字符串中的任意一个作者名形式的论文记录，即为歧义组

原子簇的定义：

在构建完歧义组之后，为了减少歧义组中比较操作的次数，可以首先将非常接近的论文记录聚合起来，与此同时，需要保证被聚合的论文记录集合在后续的消歧工作中不会被分开。这就代表每个簇中的论文属于且只属于一个真实的作者，但是一个真实的作者的论文，可能在最初的聚合步骤中分到了多个不同的类簇中，如图1a和图1b所示。本发明参考文献中“原子聚类”的概念并结合本实施例的方法，将这种类簇称为“原子簇”(cliquegroup)。

一个原子簇是一个歧义组的子集，其中所有的论文记录被指派给同一个真实作者。其纯度由公式(1)决定，它表示原子簇中属于真实作者a_i的论文记录数N_actual占簇中论文记录总数N_total的比例。

显然，所有纯度为100％原子簇构成歧义组的准确率将会达到100％。这样的原子簇有一些重要的性质：由于原子簇中的所有的论文可以保证属于同一个作者，则其中出现过的每一个合作作者，均相互认识，即簇中所有合作作者可以作为整个簇中每篇文章的合作作者；文章的出版单位也可以收集起来作为整个簇共有的出版单位信息，用来与其他类簇进行相似度计算或者作为进一步聚类的依据。

在此基础上，对原子簇进行聚类，能够最大程度提高准确率和聚类效率。事实上，如果能够保证每次聚类得到的类簇都具有很高的纯度，那么聚类结束时，也将会得到很高的准确率。因而，本发明提出的基于高置信度特征属性的层次聚类方法HCFHC的基础便是首先生成原子簇。然而，没有任何一种或几种特征属性能够保证生成纯度100％的原子簇，理论上，好的聚类算法仅能够保证尽量生成纯度接近100％的原子簇。论文记录的聚类效果在采用不同特征属性时置信度大不相同。这一点在很多仅采用一种或者同时采用多个特征属性进行的完整的聚类消歧方法中均得到了验证。正确评估不同特征属性在单独聚类论文记录的置信度高低对于生成高纯度的原子簇具有重要意义，因为采用置信度高的属性能够生成纯度更高的原子簇。

3.单特征属性的相似度计算及消歧方法；

在使用置信度低的属性之前使用置信度高的属性进行聚类会获取更纯的聚类结果，同时避免不同置信度特征属性之间相互影响。传统的消歧方法对于每个特征属性相似度的定义，是为方便进行聚类算法中与阈值进行简单的比较，从而在聚类过程中判定两篇文章关于该特征属性的相似性。然而这种定义既不能发挥出单属性消歧的最大作用，也会对置信度的判定出现偏差。本发明针对不同的特征属性进行评估时，改用更加细致的相似度函数定义，或者采用更有效的聚类算法，或者针对性的采用一些启发式的方法。

3.1合作作者属性相似度函数和消歧方法的选取；

合作作者相似度函数通过co_sim(c₁,c₂)＝|coauthor(c₁)∩coauthor(c₂)|计算一对论文之间共同的合作作者数量；然而本发明考虑到合作作者传递性，例如同一个歧义组中有三篇论文记录c₀、c₁、c₂，c₀.CoAuthor＝{a₀,a₁}，c₁.CoAuthor＝{a₁,a₂}，c₂.CoAuthor＝{a₂,a₃}，这种现象表面看起来像论文记录c₁传递了共同的合作作者a₁和a₂，因此c₀和c₂也应当属于同一个作者，尽管它们之间没有任何共同的合作作者。要在算法中体现传递性，可以借鉴原子簇的性质。具体算法逻辑如下：

表1测试数据集

表2作者别名形式表示例

表3合作作者消歧结果

表4出版单位消歧结果

表5关键词消歧结果

表6标题消歧结果

表7摘要消歧结果

表8HCFHC方法对比试验结果

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于高置信度特征属性分层聚类方法的多国论文同名作者消歧方法，其特征在于，包括：

步骤1、先从学术搜索引擎中抽取出原始数据，提取出特征属性值，对其进行规范化处理,具体是：

(2)将论文数据中所有的特征值均转化成小写；

(3)去掉包含无意义值的论文记录；

步骤2、针对步骤1得到的规范化处理后的原始数据，根据定义的规则先形成别名组，然后根据别名组生成同形异义作者歧义组

具体包括：

对于每一个同形异义的作者名，生成作者名的所有拼写形式作为其别名并存储；由于文化多样性，各个语言体系的人名命名规则差异非常大；体现在东方国家和西方国家的命名规则上的一个明显不同，是东方国家总是把姓放在名的前面而西方国家把姓放在最后；考虑到不同语言体系的特点，对于不同国家的作者名字采取不同的处理策略；包括东方国家的人名和西方国家的人名，西方国家的名字又包括一名一姓及一名两姓；

构建歧义组

原子簇的定义：

一个原子簇是一个歧义组的子集，其中所有的论文记录被指派给同一个真实作者；其纯度由公式(1)决定，它表示原子簇中属于真实作者a_i的论文记录数N_actual占簇中论文记录总数N_total的比例；

显然，所有纯度为100％原子簇构成歧义组的准确率将会达到100％；这样的原子簇有一些重要的性质：由于原子簇中的所有的论文可以保证属于同一个作者，则其中出现过的每一个合作作者，均相互认识，即簇中所有合作作者可以作为整个簇中每篇文章的合作作者；文章的出版单位也可以收集起来作为整个簇共有的出版单位信息，用来与其他类簇进行相似度计算或者作为进一步聚类的依据；

在此基础上，对原子簇进行聚类，能够最大程度提高准确率和聚类效率；

步骤3、分别对各个单特征属性进行相似度计算和消歧方法的选取，具体包括：

3.1合作作者属性相似度函数和消歧方法的选取；

合作作者相似度函数通过

co_sim(c₁,c₂)＝|coauthor(c₁)∩coauthor(c₂)|计算一对论文之间共同的合作作者数量；然而考虑到合作作者传递性，同一个歧义组中有三篇论文记录c₀、c₁、c₂，c₀.CoAuthor＝{a₀,a₁}，c₁.CoAuthor＝{a₁,a₂}，c₂.CoAuthor＝{a₂,a₃}，这种现象表面看起来像论文记录c₁传递了共同的合作作者a₁和a₂，因此c₀和c₂也应当属于同一个作者，尽管它们之间没有任何共同的合作作者；要在算法中体现传递性，可以借鉴原子簇的性质；

3.2出版单位属性相似度函数和消歧方法的选取；

首先获得所有论文的所有出版单位，通过相似度函数pub_sim(c₁,c₂)＝|publish(c₁)∩publish(c₂)|计算出版单位之间的相关性，考虑出版单位之间的相关性，定义相似领域的出版单位的相似度，从而建立相似度表；将领域和方向相近的出版单位直接分组；将出版单位属于同一分组的论文进行聚合；这种消歧方法在每次发现新的类簇时，获取所有相关的组G_p中的所有出版单位放入其中；

3.3关键词属性相似度函数和消歧方法的选取；

关键词相似度函数通过keyword_sim(c₁,c₂)＝|keyword(c₁)∩keyword(c₂)|计算两篇论文关键词之间的相关性；采用启发式规则层次聚类方法对同名作者消歧；

3.4标题与摘要属性相似度函数和消歧方法的选取；

首先对标题和摘要进行分词处理，进行去停用词和高词频无用词的预处理；通过TF-IDF模型找到标题或者摘要中TF-IDF值高的关键词；通过对两篇文章的高频词词频向量计算余弦相似度，进行聚类；

步骤4、根据上述得到的消歧结果得到各属性置信度排名高低，采用启发式规则先对合作作者和关键词属性进行第一步聚类，当且仅当两者的相似度满足条件时，合并类簇，对于没有合作作者和关键词缺省的论文，在该步骤结果后仍然是自己作为单独的簇；然后选择置信度次之的标题和出版单位属性，同样采用启发式规则，对第一步得到的类簇进行第二步聚类，该步可以合并第一步聚类后留下的孤立的单独簇，由此得到最终的聚类结果；

所述步骤4具体包括以下子步骤：

步骤5.1、初始化原子簇集合L＝{l₁,l₂,…,l_n}，令歧义组G＝{c₁,c₂,…,c_n}中每篇论文单独为簇，其中l_i.Attr_k＝c_i.Attr_k；

步骤5.2、采用l_i.CoAuthor和l_i.Keywords对L进行聚类，得到新的原子簇集合L′＝{l′₁,l′₂,…,l′_m}，其中，对于每个原子簇l′_i＝{l_i1,l_i2,…,l_ip},i≤m，

步骤5.3、采用l′_i.Title和l′_i.Publish对L′进行聚类，得到最终的聚类结果即为消歧结果。

2.根据权利要求1所述的一种基于高置信度特征属性分层聚类方法的多国论文同名作者消歧方法，其特征在于，所述步骤1具体是从学术搜索引擎中随机抽取出原始数据，提取其主要特征属性值，其中包括合作作者、出版单位、关键词以及标题和摘要，并规范化统一转化成小写，并剔除出那些乱码字符和无意义数据记录，具体需要满足以下处理规则：

处理规则三、将论文数据中所有的特征值转化成小写；

处理规则四、去掉无意义值的论文记录。

3.根据权利要求1所述的一种基于高置信度特征属性分层聚类方法的多国论文同名作者消歧方法，其特征在于，所述步骤2的具体方法是：首先考虑到不同语言的特点，生成所有的别名形式字符串，构成别名组；然后获取关于作者a_i的包含别名组字符串中的任意一个作者名形式的论文记录，即为歧义组