CN105868347A

CN105868347A - 一种基于多步聚类的重名消歧方法

Info

Publication number: CN105868347A
Application number: CN201610184280.5A
Authority: CN
Inventors: 徐小龙; 顾善植; 季露; 刘允; 罗先辉; 陈嫒琳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2016-08-17

Abstract

本发明公开了一种基于多步聚类的重名消歧方法，该方法结合文献系统信息简短明确的特点，通过合作者相似度的比较，完成初步聚类；然后抽取该知识人才的百度百科义项信息，与其单位名进行语义相似度比较，作为第二步聚类中身份判别的依据；最后抽取前两步聚类后每个类簇中的论文关键词，组合成特征语料集，通过特征语义比较，对消歧结果进一步调整，从而完成多步聚类。另外，还利用本发明的方法对CNKI导出的文献信息进行仿真实验，结果表明，本发明的重名消歧方法相较于现有技术，精度和稳健性得到了明显提高。

Description

一种基于多步聚类的重名消歧方法

技术领域

本发明涉及一种基于多步聚类的重名消歧方法，具体涉及一种面向在线文献系统的作者重名消歧方法，属于互联网信息技术领域。

背景技术

作者名识别是以作者为核心的在线文献系统中亟待解决的一个难点，例如DBLP是最早出现的以作者为核心的文献集成系统，它收录了几乎所有计算机领域在各大国际期刊与会议上公开发表的英文文献，每一季度都会做一次数据更新，可以说是一个很好的计算机科技文献库，用户通过检索作者名，可以查找到同名作者的所有文献记录，但是没有做重名消歧的工作。C-DBLP是由中国人民大学模仿DBLP开发的以作者为核心的文献集成系统，依据合作者关系特征，具有重名消歧功能，准确度高，但检索完整率相对较低。

现有的作者消歧方法按照对训练数据的依赖程度可分为：有监督学习的消歧，无监督学习的消歧和半监督学习的消歧。基于有监督学习的消歧方法需要事先人工标注数据，虽然会取得较好的准确度；但人工标注往往会费时费力，不适合大型文献系统。基于无监督学习的消歧方法往往结合常见的文献特征，通过计算相似度作为判断依据，不需要训练数据，具有较好的实用性，但通常算法复杂度较高，运行时间较长。基于半监督学习的消歧方法一般都是在有监督聚类的方法的基础上，根据改进方式，使用自动化的方法训练样本数据，但目前，此类方法的研究较少。

发明内容

本发明所要解决的技术问题是：提供一种基于多步聚类的重名消歧方法，解决了在线文献系统以作者为检索对象时不能有效分类重名作者的问题，并且分类准确率较高。

本发明为解决上述技术问题采用以下技术方案：

一种基于多步聚类的重名消歧方法，包括如下步骤：

步骤1，以某作者为检索对象，在文献系统中将署名包括该作者的文章均检索出来；

步骤2，对步骤1检索出的文章，计算任意两篇文章的合作者之间的相似度值，若至少有一个相似度值为1，则将这两篇文章进行合并，否则不合并，得到第一步聚类后的类簇；

步骤3，构建爬虫程序，爬取百度百科中该作者的所有义项，并判断步骤2得到的类簇中显示的所有作者单位信息是否均包含在从百度百科爬取的义项中，如果是，则直接根据上述义项对步骤2得到的类簇进行合并，得到第二步聚类后的类簇，否则进行步骤4；

步骤4，根据步骤2得到的类簇中显示的作者单位信息，对步骤2得到的类簇进行归类，将作者单位信息相同的类簇归为一类，计算每一类中各类簇包含的文章篇数，并将篇数第二大的数字挑选出来，从挑选出来的数字中选择最大的数字作为每一类中类簇的分界阈值，将每一类中类簇包含的文章篇数小于该分界阈值的类簇合并到包含文章篇数最大的类簇中，得到第二步聚类后的类簇；

步骤5，对第二步聚类后的类簇，将每个类簇包含的文章的关键词抽取出来，且一个类簇的关键词构成一个集合，以包含文章篇数最大的类簇作为基准，将其他类簇各自的关键词集合与该类簇的关键词集合进行语义分析，如果关键词语义相似，则将关键词语义相似的类簇合并到上述包含文章篇数最大的类簇中，消歧结束。

作为本发明的优选方案，步骤2所述相似度值的计算公式为：

sim(S,T)＝2*card(S∩T)/(card(S)+card(T))，

其中，S表示其中一篇文章的其中一个合作者的姓名字串集合，T表示另一篇文章的其中一个合作者的姓名字串集合，card(·)表示集合中的元素个数，sim(S,T)表示S与T的相似度值。

作为本发明的优选方案，步骤1所述文章的属性包括：标题、合作者、作者单位、期刊名、关键词。

作为本发明的优选方案，步骤4所述分界阈值的公式为：

Sec_T＝MAX{SMAX{A₁,A₂,...A_i}_A,...SMAX{N_1,N₂,...N_j}_N}，

其中，Sec_T表示分界阈值，SMAX表示每一类中各类簇包含的文章篇数为第二大的数字，{A₁,A₂,...A_i}_A表示归类后的其中一类A包含的类簇A₁,A₂,...A_i，{N_1,N₂,...N_j}_N}表示表示归类后的其中一类N包含的类簇N_1,N₂,...N_j。

作为本发明的优选方案，所述分界阈值为15。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明基于多步聚类的重名消歧方法，以论文合作者信息为基础，结合百度百科已经存在的人物分类信息组合关键词特征语料集，且无需对数据人工标记，取得了较高的准确率和召回率。

2、本发明基于多步聚类的重名消歧方法，根据用户实际以作者为检索对象时的需求，对文献系统库重名消歧问题提出检索完整率的检验标准。

3、本发明基于多步聚类的重名消歧方法，经过不断训练，得到判断网页身份识别中作者单位分类的阈值，提高了准确率和召回率。

附图说明

图1是本发明基于多步聚类的重名消歧方法的流程图。

图2是本发明方法应用的一个实例数据集。

图3是本发明基于百度百科义项聚类时类簇分界阈值的训练结果示意图。

图4是本发明基于多步聚类的重名消歧方法中每一步消歧后的结果对比示意图。

图5是基于本发明方法的消歧结果图。

图6是本发明基于多步聚类的重名消歧方法的完整率示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提供一种基于多步聚类的重名消歧方法，首先，我们根据论文信息中的合作者信息进行第一次聚类，通过对文章的合作者姓名两两比较，得到不同类簇，这些类簇基于凝聚型层次聚类思想，只会越聚越大，而不会再次拆开。进行了第一次聚类后，仍有许多完整的信息是分散的。然后，我们基于百度百科的义项信息，识别该姓名下的作者多重身份信息，通过实验，我们选取判别类簇大小的阈值，用以决定哪些类簇作为已经成型的雪团，用来接收其他类簇的合并。最后，在我们在前两步聚类的基础上，将信息较为集中的所有类簇中的论文关键词提取出来，组成特征语料集，与剩下相对包含篇数较少的类簇中的关键词进行特征相似度比较，从而完成最终的聚类，可以较为准确地分出重名作者的真实对应。

本发明以中国知网为例，以作者名为检索对象，导出该姓名下所有的论文信息，如图2所示。采用多步聚类的方法，实现该作者名的歧义消歧，具体算法流程如图1所示。

本发明基于多步聚类的重名消歧方法，包括如下步骤：

步骤S1：基于合作者消歧。将存在联系且较少歧义的信息聚类。本步骤包含如下两个子步骤：

步骤S11：计算合作者相似度。令S、T是两个合作者组成的字串，即S＝{s₁,s₂,...s_m},T＝{t₁,t₂,...t_n}，其中s_i,t_j分别表示S,T字串中的字符，字串S与字串T的相似程度标记为sim(S,T)，则：

sim(S,T)＝2*card(S∩T)/(card(S)+card(T))，

其中，card(S)表示集合S中元素个数。比如：姓名“王伟”和姓名“王伟强”中，{王伟}＝{王，伟}，则card(王伟)＝2，{王伟强}＝{王，伟，强}，则card(王伟强)＝3，所以同理姓名“黄海平”和姓名“程春玲”，其“张伟”和“张伟”，其

步骤S12：第一次聚类。设立合并的阈值为1，比如论文A中有4个合作者，论文B中有3个合作者，在组合遍历的12个sim结果中，只要出现一次sim＝1的情况，则返回值1，即判定论文A，B合并。

步骤S2：基于百度百科义项信息消歧。合理运用百度百科上的义项，有利于身份判别。本步骤包含如下三个子步骤：

步骤S21：抽取义项。构建爬虫程序，爬取百度百科该作者的义项信息。比如姓名“徐小龙”在义项中显示的信息有“南京邮电大学计算机学院副主任”、“解放军报兼职记者”等6个身份信息。

步骤S22：计算义项和信息特征相似度。如果类簇中显示的作者单位信息包含在百度百科义项信息中，则意味着这些单位代表着存在的真实重名实体；如果部分包含，计算类簇分界阈值作为合并依据，公式如下：

Sec_T＝MAX{SMAX{A₁,A₂,...A_i}_A,...SMAX{N_1,N₂,...N_j}_N}，

其中，Sec_T表示选取的类簇分界阈值，SMAX{A₁,A₂,...A_i}_A表示以A作者主导的i个类簇中，含有的文章篇数仅次于最大类簇含有的文章篇数。通过样本数据训练，从图3可以观察到，在本次设计的实验中，Sec_T为14，所以分界阈值选取在15左右将收到较好效果。

步骤S23：第二次聚类，根据上述分界阈值，得到第二步消歧结果。

步骤S3：基于特征语料集消歧。此阶段的任务是进一步提高消歧的准确率，弥补前两步中遗漏的缺陷。此时信息较为集中的节点基本都是不同的作者，将他们作为基本点，对于现在零散的信息，我们从它们的内容着手，运用语义判断和大集合的相似度。本步骤包含如下四个子步骤：

步骤S31：抽取类簇关键词。前两步结束后，假设该作者的信息被聚成了四个节点：C₁,C₂,C₃,C₄，假设C₄中此时包含的篇数最大，那么将被设为不动点，将其中所有的关键信息抽取出来组成特征语料集组成集合U。对C₁,C₂,C₃节点同样抽取出所有关键词，组成v₁,v_2,v₃。

步骤S32构建特征语料集。由步骤S31得到特征语料集<U,v₁,v_2,v₃>。

步骤S33：比较特征语义。调整数值，选择<v₁,v_2,v₃>与U可以合并的阈值。因为在进行了两步合并之后，尚需合并的论文基本分散在三种类簇中：只含有一篇论文的类簇，只含有两篇论文的类簇和大于两篇的类簇。

步骤S34：第三次聚类。根据语义对三种情况下的类簇计算关键词相似度，进行合并，消歧结束。

基于篇级数据的作者名消歧，实质上是对篇级数据按照作者实体进行聚类的一个过程，在消歧结果中，正确识别出的作者实体的比例越大，表明算法的效果越好。本文采用了一种常用的评价方法：用准确率P(Precision)、召回率R(Recall)和F值来衡量算法的优劣。各个指标定义如下：

P = \frac{C N}{N} \times 100 %, R = \frac{C N}{R N} \times 100 %, F = \frac{2 \times P \times R}{P + R} \times 100 %

其中，CN为正确识别的作者实体出现在标准结果中的数量，N为识别出的作者实体数量，RN为标准结果中的实体数量。

此外，根据用户以作者核心检索文献数据库时的需求，设计文献检索完整率公式RFR(Retrieve Full Rate)：

{RFR}_{A} = Σ_{j = 1}^{k} m a x (μ_{j} / N_{A_r e a l}),

其中，k表示以该作者为主导的节点数，u_j为该节点中作者A的真实篇数，N_{A_real}为作者A真实的总篇数。

例如有三个作者A,B,C，分别输出的结果如表1：

表1RFR示例

节点	姓名	u_j	N_{A_real}
				节点1	作者A	20	20
节点2	作者B	30	45
				节点3	作者B	8	45
节点4	作者C	60	70

那么，三位作者的检索完整率RFR分别为：

RFR_A＝100.00％,RFR_B＝66.67％,RFR_C＝85.71％。

我们从中国知网导出1179篇文献，共计有六个姓名，根据检验公式，可得到实验结果如表2。

表2实验结果

姓名	文章篇数	RN	N	CN	P	R	F
								徐小龙	236	34	37	30	0.81	0.88	0.84
陈伟	223	35	37	32	0.86	0.91	0.89
								李雷	148	64	66	61	0.92	0.95	0.94
刘林峰	87	32	29	26	0.89	0.81	0.85
								李云	282	54	56	52	0.92	0.96	0.94
陈志	203	23	25	20	0.80	0.87	0.83
								平均结果	196	40	42	37	0.86	0.89	0.88

我们对每一步消歧都统计了评价结果，如表3所示。

表3每一步的消歧性能

消歧性能	P	R	F
				步骤S1	0.40	0.75	0.51
步骤S2	0.75	0.83	0.79
				步骤S3	0.86	0.89	0.88

由图4可以发现，基于多步聚类的重名消歧方法随着步数增多，效率越好。

接着，我们进行对比实验：运用基于多特征的消歧方法(DFMF)对同样的数据集进行消歧，得到对比结果如表4所示。我们发现基于多步聚类的消歧方法明显好于基于多特征的消歧方法。

表4DFMF与本发明方法的对比

方法	P	R	F
				本发明	0.86	0.89	0.88
DFMF	0.66	0.79	0.72

以某位作者为例，最终得到消歧效果如图5所示。该姓名下真实对应的信息将会被聚到一起。

如图6所示，我们大致可以发现，对于本发明算法，当文章篇数较少时，有着较高的文献检索完整率，在第12篇时出现第一个局部最低点，出现的原因可能是作者独立发表，文献与文献之间合作者相似度少等原因，随着文献总量的增多，检索完整率逐渐增加，我们通过数据分析发现，在测试的样例中，这一段，论文的特征信息相似度较高，以合作者和单位相似为主。当篇数继续增加时，不可避免地会出现作者研究方向、合作的人，发表文章的单位种类变多，造成局部相似度降低。然后随着样本增多，共构建的特征语料也随之增多，根据语义判断相似度的算法进而又可以发挥作用。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于多步聚类的重名消歧方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于多步聚类的重名消歧方法，其特征在于，步骤2所述相似度值的计算公式为：

sim(S,T)＝2*card(S∩T)/(card(S)+card(T))，

3.根据权利要求1所述基于多步聚类的重名消歧方法，其特征在于，步骤1所述文章的属性包括：标题、合作者、作者单位、期刊名、关键词。

4.根据权利要求1所述基于多步聚类的重名消歧方法，其特征在于，步骤4所述分界阈值的公式为：

Sec_T＝MAX{SMAX{A₁,A₂,...A_i}_A,...SMAX{N_1,N₂,...N_j}_N}，

5.根据权利要求4所述基于多步聚类的重名消歧方法，其特征在于，所述分界阈值为15。