发明内容
本发明所要解决的技术问题在于克服当前的网络文献知识库系统在重名辨识能力方面存在的鉴别精度低、成本高的不足。
为此本发明提出一种文献作者重名检测方法,具有更强的鉴别精度和更稳定的召回率。技术方案如下:
一种文献作者重名检测方法,包括如下步骤:
步骤1:判断初始训练集是否为空,如果为空,进入步骤7,否则,则进入步骤2;
步骤2:从初始训练集中提取一个文献聚类,判断终止训练集是否为空,若不为空,则进入步骤4,若为空,进入步骤3;
步骤3:将从初始训练集中提取的文献聚类添加到终止训练集,进入步骤2;
步骤4:从终止训练集中提取文献聚类,进入步骤5;
步骤5:判断从初始训练集中提取的文献聚类与从终止训练集中提取的文献聚类是否满足消歧规则,若满足条件,则合并两个文献聚类,进入步骤6,若不满足,进入步骤3;
步骤6:将已经提取的文献聚类从初始训练集中移除,进入步骤1;
步骤7:进行二次聚类,将终止训练集赋值给二次聚类的初始聚类,进入步骤8;
步骤8:判断二次聚类的初始训练集是否为空,若为空,算法结束,否则进入步骤9;
步骤9:从二次聚类的初始训练集中提取一个文献聚类,判断二次聚类的终止训练集是否为空,若不为空,则进入步骤11,若为空,进入步骤10;
步骤10:将提取的文献聚类添加到二次聚类的终止训练集中,进入步骤9;
步骤11:逐次从终止训练集中提取文献聚类,进入步骤12;
步骤12:对二次聚类初始训练集提取的文献聚类与终止训练集的文献聚类进行合作者相似度判断,若结果满足相似度阈值,则合并两个文献聚类,进入步骤13,若不满足,进入步骤10;
步骤13:将已提取的文献聚类从二次聚类初始训练集中移除,进入步骤8。
特别地,步骤12中所述的相似度判断采用单特征相似度检测方法计算每个单特征相似度的阈值,包括如下步骤:
步骤1:从初始训练集中提取出两个单特征;
步骤2:计算已提取的两个单特征之间的相似程度;
步骤3:判断初始训练集是否为空,如果否,转步骤1,否则顺序执行;
步骤4:结束。
进一步,上述单特征相似度检测方法可以计算出每个单特征相似度的阈值。
进一步,步骤12中所述消歧规则的判断采用单特征消歧方法,该方法包括如下步骤:
步骤1:判断初始训练集是否为空,如果初始训练集为空,则算法结束;若初始训练集不为空,则进入步骤2;
步骤2:从初始训练集中提取一个文献实体,判断终止训练集是否为空,如果为空,进入步骤3,如果不为空,进入步骤4;
步骤3:将从初始训练集中提取的文献实体作为一个文献聚类加入终止训练集,进入步骤2;
步骤4:将初始训练集的文献实体逐次与终止训练集中的文献聚类的文献实体进行相似度对比,若满足条件,则将从初始训练集中提取的文献实体合并到终止训练集的文献聚类,进入步骤5,若不满足,进入步骤3;
步骤5:将提取的文献实体从初始训练集中移除,进入步骤1。
进一步,前述单特征消歧方法可以判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数,避免过度识别的问题。
进一步,步骤12中所述的消歧规则为多特征融合,包含以下步骤:
步骤1:用β代表单特征属性,用Wβ表示每个单特征在单独消歧方面的能力,即单特征的消歧权重,使用F值作为单特征消歧能力强弱的指标,则单特征的权重计算公式如下:
步骤2:用Vβ表示每个单特征相似度的阈值,为每一个单特征定义一个布尔变量B,则有Bβ,定义:
步骤3:用Sim(a1,a2)表示两个作者实体的相似度,则定义作者重名消歧规则公式:
前述消歧规则融合了每一个单特征的消歧能力,当消歧力强的单特征不满足要求时,规则会顺次考虑其他的单特征。
本发明方法具有以下有益效果:
(1)在进行单特征的相似度匹配时,通过字符串的模糊匹配公式对文献单特征属性进行适当的模糊匹配,避免了过度精确匹配反而达不到理想效果的情况。
(2)通过单特征消歧方法判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数,避免过度识别的问题,对于后续制定消歧规则很有意义。
(3)由于每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的,有的单特征消歧力强,有的单特征消歧力弱,制定的消歧规则融合了每一个单特征属性的消歧能力,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特征进行二次聚类,避免聚类不全问题。
具体实施方式
现结合附图对本发明的具体实施做进一步详细的说明。
为便于公众理解本发明的技术方案,下面先对本发明所涉及的概念及模型进行简要介绍。
一、单特征相似度
用L表示一篇文献,AL表示文献的作者集,UL表示作者的单位,KL表示关键词,PL表示除去同名作者以外的合作者集,JL表示期刊,TL表示标题。下面先分析一下五个单特征在消歧方面的作用:
作者单位(Unit):作者单位具有很强的消歧能力。任意一篇文献都可以找到作者的单位信息,如果两篇文章有相同的作者名,并且又具有相同的作者单位,那么就可以粗略的假设这两个同名作者应该为同一个作者实体,本发明设定,两篇具有同名作者的文献L1和L2的作者单位的相似度表示为:
关键词(Keyword):本发明用关键词来表示作者的研究方向,同一个作者实体的研究方向总是保持着某种连贯性,任意一篇文献都可以找到关键词,如果两篇文章有相同的作者名,并且又具有相似的关键词,那么就可以粗略的假设这两个同名作者应该为同一个作者实体,当然不排除两个同名作者研究方向也相同的情况,但如果考虑的过于仔细,反倒使鉴别能力下降,因此本发明设定,两篇具有同名作者的文献L1和L2研究方向的相似度表示为:
合作者(Partner):如果两篇文章有相同的作者名,并且又具有相同的一到两个合作者,那么就可以假设这两个同名作者应该为同一个作者实体,当然不排除两个同名作者的合作者也出现同名的情况,但如果考虑的过于仔细,反倒使鉴别能力下降,因此本发明设定,两篇具有同名作者的文献L1和L2合作者的相似度表示为:
期刊(Journal):一般情况下,每个作者都有偏好的一到多个期刊,因此期刊也有一定的连贯性,如果两篇文章有相同的作者名,并且又发表在同一个期刊上,那么就可以假设这两个同名作者应该为同一个作者实体,当然不排除同一个期刊上刊载两个同名作者的情况,但在考虑单特征的消歧能力时,不用考虑的过于仔细,因此本发明设定,两篇具有同名作者的文献L1和L2期刊的相似度表示为:
标题(Title):一般情况下,如果两篇文章有相同的作者名,并且文献标题也相似,那么就可以粗略的假设这两个同名作者应该为同一个作者实体,因此本发明发明设定,两篇具有同名作者的文献L1和L2标题的相似度表示为:
二、单特征的选择与分析
面向科技文献的作者重名识别问题的关键在于合理单独利用和组合利用每个单特征,因此,提前判断出每个单特征属性鉴别力的强弱对于后续的消歧工作很有意义。有些单特征属性,比如作者单位、合作者具有很强的鉴别力,在制定消歧规则时可以将其作为消歧强因子重点考虑,另外一些单特征属性的消歧能力不强,在制定消歧规则时可以作为弱因子。因此,有必要检验一下各单特征在消歧过程中起的作用,即对不同的特征信息在构建的测试集上进行测试。
技术方案具体步骤为:
步骤1:作者对象建模。在面向科技文献的重名消歧过程中,每一个作者对象都可以用科技文献的其他单特征来表示,因此在本发明中,我们对作者对象进行建模,每个对象实例包含六个属性,用一个六元组来表示,则有:
A=(N,U,K,P,J,T) (4)
式(1)中,N代表序号,U代表作者单位,K代表关键词,P代表合作者,J代表期刊,T代表标题。所有的作者对象将以六元组的形式写入文件,每一行表示一篇文献即一个作者实体
步骤2:单特征的模糊匹配。面向科技文献的作者重名消歧工作重点是充分、合理利用文献中的单特征属性进行辨识,因此需要对每一个单特征进行匹配。但是,如果每个单特征属性都进行过度的精确匹配,反而会收不到理想的鉴别效果,因为科技文献自身,其单特征属性就带有一定的模糊性,比如作者单位中的“大学”与“学院”、关键词中的“多移动Agent”与“多Agent”,因此,通过适当的模糊匹配反而会达到较好的匹配效果。本发明采用模糊匹配公式作为单特征相似度检测方法的数学基础,并通过实验验证每个单特征的模糊匹配阈值,以期当达到该阈值时,单特征会有比较好的匹配效果。
假设Si是一个单特征字符串,sij是其中的字符,则:
Si={si1,si2,…sij,…sin},i∈[1,m],j∈[1,n] (5)
两个字符串的相似度可以记作Sim(Sa,Sb),则:
步骤3:单特征相似度检测方法。用β代表单特征属性,即β可表示六元组中的任意一个单特征,单特征相似度检测方法的处理过程如下:首先,从初始训练集中提取每篇文章的β;其次,将全部β属性进行两两比较,计算其相似度;最后,将相似度输出在本地文件。
步骤4:单特征消歧方法,方法以层次聚类作为聚类思想,用文献聚类表示具有同名作者的文献集合,初始训练集的每一个文献实体都是一个文献聚类。算法首先遍历并提取初始训练集中的每一个文献实体,将提取出来的文献实体与终止训练集中的文献聚类中的文献实体进行单特征相似度对比,计算相似度均值,若均值满足已有的阈值时,就可以判定两篇文献的作者为同一个作者,即合并两个文献实体为同一个文献聚类,若相似度条件不满足,则逐次与终止训练集的其他文献聚类进行比较,若都不满足条件,将该文献实体认为是一个新的文献聚类加入终止训练集中,同时从初始训练集中移除该文献实体,重复上述操作,直到初始训练集为空,算法结束。
步骤5:制定消歧规则。
①单特征的权重。每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的,有的单特征消歧力强,有的单特征消歧力弱,设计合理的消歧规则,有必要掌握每个单特征在消歧方面的影响因子,这个影响因子就是单特征的消歧权重,本发明用Wβ表示。在介绍单特征相似度检测方法时,提到使用F值作为单特征消歧能力强弱的指标,因此,本发明提出五个单特征的权重计算公式如下:
②基于多特征融合的作者重名消歧规则。由单特征相似度检测方法可以计算出每个单特征相似度的阈值,则有Vβ。为每一个单特征定义一个布尔变量B,则有Bβ,定义:
用Sim(a1,a2)表示两个作者实体的相似度,则定义的基于多特征融合的作者重名消歧规则公式:
由以上方法制定的消歧规则融合了每一个单特征的消歧权重,当权重优先的单特征不满足时,规则会顺次考虑其他的单特征,这样就结合了精确匹配和模糊匹配的优点。
步骤6:文献作者重名检测方法基于多特征融合进行作者重名消歧工作,本方法在单特征相似度检测方法、单特征消歧方法的基础上,结合消歧规则,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特征进行二次聚类,避免聚类不全问题。本方法以层次聚类作为聚类思想,时间复杂度为O(k*t*m*n),k为初始训练集的大小,t为终止训练集的大小,m为初始训练集中每个文献聚类的大小,n为终止训练集中每个文献聚类的大小。开始时,初始训练集中每一个文献实体都是一个文献聚类,方法首先遍历并提取初始训练集中的每一个文献聚类即每一个文献实体,提取出来的文献聚类与终止训练集中的文献聚类中的文献实体进行对比,当满足消歧规则时,就可以判定两篇文献的作者为同一个作者,即合并两个文献聚类为一个文献聚类,若消歧规则不满足,则逐次与终止训练集中的其他文献聚类进行比较,若都不满足消歧规则,则将该文献聚类认为是一个新的文献聚类加入终止训练集中,同时从初始训练集中移除该文献聚类,重复上述操作,直到初始训练集为空,此时,初次聚类结束;将初次聚类的终止训练集作为二次聚类的初始训练集,重复上述操作,将消歧规则指定为判断两个训练集的合作者特征的相似度,避免初次聚类中对于合作者之间的关系考虑不全的情况,当二次聚类的初始训练集为空时,方法结束。
本发明方法的思路是首先提出单特征相似度检测方法,对文献间的单特征相似度进行检测并计算其阈值,具体流程如图1所示;其次提出单特征消岐方法,基于文献的单特征进行作者重名的消歧工作,引入权重评估每个单特征的消歧力,具体流程如图2所示;最后,基于以上工作,制定多特征融合的作者重名消歧规则,提出一种文献作者重名检测方法,进行重名消歧工作,具体流程如图3所示。
具体而言,本发明采用以下技术方案解决上述技术问题。
步骤1:对作者对象建模。在面向科技文献的重名消歧过程中,每一个作者对象都可以用科技文献的其他单特征来表示,因此,对作者对象进行建模,为后续重名检测方法奠定基础。
步骤2:定义单特征的模糊匹配公式。面向科技文献的作者重名消歧工作重点是充分、合理利用文献中的单特征属性进行辨识,因此需要对每一个单特征进行匹配。假设Si是一个单特征字符串,sij是其中的字符,则:
Si={si1,si2,…sij,…sin},i∈[1,m],j∈[1,n] (10)
两个字符串的相似度可以记作Sim(Sa,Sb),则:
步骤3:通过单特征相似度检测方法对两两单特征的相似度进行计算。
步骤4:每个单特征在进行重名作者的消歧鉴别时发挥的影响力是不一样的,有的单特征消歧力强,有的单特征消歧力弱,通过单特征消岐方法分别对每个单特征的消歧能力进行评估。
步骤5:制定消歧规则。基于步骤3和步骤4制定多特征融合的消歧规则,吸取了单特征在单独进行消歧时的优点,做为文献作者重名检测方法的数学基础。
步骤6:文献作者重名检测方法在单特征相似度检测方法、单特征消歧方法的基础上,结合消歧规则,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特征P进行二次聚类,避免聚类不全问题。
本发明以科技文献中作者重名问题为切入点,选取与作者紧密联系的五个单特征,首先分析单特征相似度阈值选取问题,然后分析单特征消歧问题,制定消歧规则,最后提出一种文献作者重名检测方法,完成作者重名的消歧工作。
本发明所要解决的技术问题在于克服当前的网络文献知识库系统在重名辨识能力的不足,提供一种文献作者重名检测方法,具有更强的鉴别精度和更稳定的召回率。同名作者的辨识是一个非常重要和复杂的研究课题。在科技文献的检索与调研工作中,大量的作者重名现象降低了工作的准确性,降低搜索质量,导致科研周期的不必要延长。通过合理的方法对重名作者进行鉴别,可以有效改善检索质量,节约科研工作的时间成本。本发明提出一种文献作者重名检测方法,通过制定多特征融合的消歧规则对科技文献中的重名现象进行聚类分析。本发明不仅充分利用字符串的模糊匹配公式对文献单特征属性进行适当的模糊匹配,避免了过度精确匹配反而达不到理想效果的情况,而且判断出每个单特征属性单独消歧时鉴别力的强弱和科学聚类次数,避免过度识别的问题,同时融合了每一个单特征属性的消歧能力,避免了单一单特征在消歧过程中带来的误差,提高了检测精度。
本发明方法基于多特征融合进行作者重名消歧工作,以层次聚类作为聚类思想,所述方法在单特征相似度检测方法、单特征消歧方法的基础上,结合消歧规则,避免了单一单特征在消歧过程中带来的误差,在初次聚类的基础上再对合作者特征进行二次聚类,有效地避免了聚类不全的问题。