CN104598599A - 命名排歧方法及系统 - Google Patents

命名排歧方法及系统 Download PDF

Info

Publication number
CN104598599A
CN104598599A CN201510036663.3A CN201510036663A CN104598599A CN 104598599 A CN104598599 A CN 104598599A CN 201510036663 A CN201510036663 A CN 201510036663A CN 104598599 A CN104598599 A CN 104598599A
Authority
CN
China
Prior art keywords
paper
atomism
collection
author
collected works
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510036663.3A
Other languages
English (en)
Other versions
CN104598599B (zh
Inventor
唐杰
刘德兵
刘静远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510036663.3A priority Critical patent/CN104598599B/zh
Publication of CN104598599A publication Critical patent/CN104598599A/zh
Application granted granted Critical
Publication of CN104598599B publication Critical patent/CN104598599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联;S3,根据作者对每个原子论文集团进行聚类分析,以得到与作者对应的论文集合;S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。本发明的方法,正确率高、主动性强、成本低。本发明还提出一种命名排歧系统。

Description

命名排歧方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种命名排歧方法及系统。
背景技术
命名歧义主要是指“一个名字实际对应到多个人”或者“多个名字实际对应于同一个人”的问题。命名歧义在现实生活中普遍存在,例如,据统计美国有1.14亿人共用300个名字;在同名查询网上搜索“张伟”,可以知道全中国有29万多个名叫“张伟”的人。
命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、数据挖掘、数字图书馆和信息检索研究中的热点问题。其中,学术论文中的作者命名排歧是这一技术的典型应用场景。由于作者存在大量同名,以及不同学术数据库、会议和期刊对于作者姓名的规范标准不同而导致名字写法不同,不同的作者可能以相同的名字出现。将名字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖掘知识的核心问题。通过命名排歧技术,精确地将来自异构数据源的有噪声作者信息归类到正确的作者实体中,对于进一步建立研究人员档案,对研究人员进行学术能力评价,搜索特定研究领域的研究人群,分析研究人员的合作与引用关系,以及构建特定研究领域的社会化网络等应用都有着重要意义。
目前命名排歧技术已经取得了一定的进展,根据命名排歧的机器学习模型,主要分为三类:基于监督学习,基于无监督学习和基于半监督学习。基于监督学习的方法可以取得最好的命名排歧的效果。然而,在实际应用中,很难获得高质量的训练数据集来保证基于监督学习的命名排歧方法获得较高性能。另外,现有的命名排歧方法缺乏对先验约束知识和用户反馈信息的运用。整体准确率低、主动性差、成本高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个 目的在于提出一种高正确率的命名排歧方法。
本发明第二方面目的在于提出一种命名排歧系统。
为了实现上述目的,本发明第一方面实施例的命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;S3,根据作者对每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;S4,通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;S5,将所述标注结果加入所述已标注数据集,重复执行步骤S1~S4直至所述原始论文集合中的论文标注完成。
根据本发明实施例的命名排歧方法,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
在一些示例中,所述步骤S2包括:S21,根据所述论文特征关系从所述已标注数据集获取偏差分类器;S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器。
在一些示例中,所述步骤S3包括:S31,获取所述多个原子论文集团两两之间的相似度关系;S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;S33,根据步骤S32的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;S34,重复执行S32~S33直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。
本发明第二方面实施例的命名排歧系统,包括:提取模块、分类模块、聚类模块和标注模块。提取模块,用于从原始论文集合中选取预定样本容量的论文集。分类模块,用于根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联。聚类模块,用于根据作者对每个所述原子论文集团进行聚类分析, 以得到与所述作者对应的论文集合。标注模块,用于通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;以及将所述标注结果加入所述已标注数据集。
根据本发明实施例的命名排歧系统,分类模块根据已标注数据集将论文集进行分类,以获取多个原子论文集团,聚类模块对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。标注模块通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
在一些示例中,所述分类模块还用于,根据所述论文特征关系从所述已标注数据集获取偏差分类器;及利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
在一些示例中,所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器。
在一些示例中,所述聚类模块还用于,获取所述多个原子论文集团两两之间的相似度关系;利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;根据上述的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;重复执行上述过程直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明一个实施例的命名排歧方法的流程图;
图2是本发明一个实施例的命名排歧方法的过程示意图;
图3是隐式马尔科夫随机场示意图;
图4是根据本发明一个实施例的命名排歧系统的结构框图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
参照图1,本发明第一方面实施例的命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联;S3,根据作者对每个原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。
本发明实施例的命名排歧方法中涉及的参数的定义如下表1所示,结合图2,首先利用 已知知识和约束(已标注数据集),作为训练数据集,训练出分类器(classifier),发现原始论文数据集中的高正确率原子论文集团(HPAC)。再将原子论文集团聚类成大的高召回率论文集合(HRC),每一个论文集合即对应一个具体的作者。通过主动学习策略选择出一些“特殊”论文集合(LDS),让用户标注命名排歧结果是否正确。最后将用户标注效果作为训练集,进一步改善用于发现高正确率原子论文集团的分类器,进而开始下一个命名排歧循环直至原始论文数据集中的论文标注完成。
表1 命名排歧方法中参数定义
本发明实施例的命名排歧方法的具体实现过程如下:
步骤S1,从原始论文集合中选取预定样本容量的论文集。
例如,从几万篇所有要处理的原始论文中,选取一千篇论文作为论文集。
步骤S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团。每个原子论文集团中的论文相关联。
步骤S2具体包括: 
S21,根据论文特征关系从已标注数据集获取偏差分类器;
S22,利用偏差分类器将论文集划分成多个原子论文集团。
步骤S21,根据论文特征关系从已标注数据集获取偏差分类器。
命名排歧的主要是任务是将论文Pi分配给拥有同样名字k个作者中{y1,y2,…,yk}正确的人选。本发明实施例的命名排歧方法就是通过“偏差分类器”BC发现HPAC,将HPAC聚类成HRC,从HRC中主动选择出LSD,进而提高分配论文的综合性能。
论文的作者中包括主要作者与次要作者。对于某给定的论文Pi,其作者集合可以表示为向量其中,需要进行命名排歧的名字称为主要作者,其余的名字称为次要作者。
本发明实施例的论文特征关系如下表2所示,论文间关系是可以量化的进行命名排歧的重要特征。在进行命名排歧时,关注点不局限于某篇论文,而关注互相有无向连接关系的文对。对于一对论文Pi和Pj,具体的连接关系有以下四种:
(1)同出版商:Pi.出版商=Pj.出版商,这里的出版商值得是论文发表在同一个会议上,或是初版在同一本刊物或书籍之中,比如均发自“ACM SIGKDD 2006”的论文。
(2)同合作者:Pi.次要作者∩Pj次要作者不为空,比如区分的主要作者是“唐杰”,Pi的次要作者有“张静,方展鹏”,Pj的次要作者有“张静,杨洋”,发现Pi和Pj有一个共同的次要作者“张静”,则这两篇论文具有同作者关系。
(3)τ度同合作者:Pi.“拓展”次要作者∩Pj.“拓展”次要作者不为空,即同合作者关系的拓展。比如区分的主要作者是“唐杰”,Pi的次要作者有“张静,方展鹏”,Pj的次要作者有“杨洋,杨子”,Pi和Pj并没有直接的次要作者,但是在另外某篇论文Pk中,“杨洋”和“张静”是合作者关系,则这两篇论文具有2度同合作者关系。以此可以类推3度同合作者关系,但是3度同合作者关系聚类性能交叉,往往仅考虑2度同合作者关系。
(4)论文标题相似度:基于标题关键词来定量衡量论文间相似度。我们基于一个简化的向量空间模型进行标题文本建模;基于TF-IDF来给标题中的每一个词打分;然后基于余弦相似度,来定量衡量标题间相似度。最后启发式的定义阈值,当论文标题间相似度大于阈值时,则将Pi和Pj连成对。
表2.论文间关系特征定义
步骤S2的目的是从原始论文集合中发现一个个紧密相连的、不可再分的原子论文集团。这个步骤可以利用已知知识(已标注数据集)训练分类器,再利用分类器BC达到发现原子论文集团的目的。这个步骤需要保证高正确率,而不非常重视召回率。具体的过程描述如下伪语言所描述。
分类器选取是保证高正确率的关键。分类器所用的特征,即表2中定义的论文间的关系特征。训练分类器的输入是(Pi,ACi,pos/neg),即某篇论文Pi是否属于某个原子论文集团ACi,是为1,否为-1。
在本发明一个实施例中,偏差分类器包括:初始化已标注数据集的权重;利用分类算法对已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算弱分类器的偏差误差;从多个弱分类器中获取具有最小偏差误差的弱分类器;更新已标注数据集的权重;获取偏差分类器。
为了保证分类器的性能,可以采用AddBoost.M1方法。这种方法可以显著提升弱学习方法的性能,也可以提升一些强学习方法的性能。这里的学习方法可以选择经典的决策树C4.5算法。此外,为了保证高准确率,引入偏差分类器的概念。即在AddBoost.M1+C4.5算法中加上一个“不对称”的偏差错误量值AsyLoss。如果将错误的判为正确,偏差错误量值AsyLoss较大,如果将正确判为错误,偏差错误量值AsyLoss较小。这样保证偏差分类器偏向于准确率较高,但召回率偏低。
如公式(1)中所示,当选取的k>1时,将错误的结果分类为正确,则会导致更大的错误量值,而分类结果与事实一致时,错误量值为0。AddBoost.M1算法的目的即使分类结果错误量值最小。所以在实际计算中,一般将AddBoost.M1中的计算错误量值乘上AsyLoss来进行迭代训练。AddBoost.M1+C4.5+AsyLoss偏差分类器的训练过程如下所示。
步骤S22,利用偏差分类器将论文集划分成多个原子论文集团。
利用步骤S21获取的偏差分类器将论文划分成多个原子论文集团。
步骤S3,对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合。步骤S2获取高正确率原子论文集团之后,为了提高召回率进行聚类,进而提升整体命名排歧的性能。即将HPAC{AC1,AC2,AC3,…,ACn}的每一个子集合进行聚类,得到高召回率论文集团集合HRC。HRC={C1,C2,C3,…,Cn}即为论文分配结果,而HRC中的每一个元素Ci即为一个作者所拥有的论文。
S33,根据步骤S32的分配结果,更新每个集合的中心结点以及隐式马尔科夫随机场模型的参数;
S34,重复执行S32~S33直至每个集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。
步骤S3的具体实现过程如下:
S31,获取多个原子论文集团两两之间的相似度关系。
首先是聚类中论文间关系特征的定量计算,它的值即用于衡量论文间“相似度”,其中不同的关系特征计算时的权重选择也会对最终聚类结果产生影响。其次是聚类过程中,一个已发现的高正确率原子论文集团不应该在进行拆分。因此,在聚类过程中,相似度的衡量的颗粒度不只是论文与论文之间,而是论文集团与论文集团之间。因此,可以采用向量空间余弦距离值计算两个集合之间的相似度,如下:
Sim _ clusers = Σ p i ∈ AC i , p j ∈ AC j Sim _ Pub ( P i , P j ) | AC i | · | AC j |
S32,利用隐式马尔科夫随机场模型将每个原子论文集团分配给最接近的论文中心结点 所在的集合,并使得某篇论文属于某位作者的条件概率最大。
在步骤S31得到HPAC子集合间的相似度关系之后,即可以在别的聚类算法框架下进行计算。在本发明的实施例中选用隐式马尔科夫随机场作为具体的聚类算法框架。
选择隐式马尔科夫随机场,相比于其他传统的聚类算法,如KMeans,有很多好处。首先,论文及其间关系可以很好地用无向图进行表示,其中论文作为图的结点,论文间关系作为结点的边。在隐式马尔科夫随机场的算法框架中,可以很好地利用结点特征和边特征这两种特征,并且,隐式马尔科夫随机场很好地契合了生成模型。由隐含的结点生成了观察到的结点,在物理意义的解释上十分合理。
如图3所示的隐式马尔科夫随机场,x表示的是论文结点,是可以观察到的变量,具体值X={xi},i=1,2,…N,N为论文数量,由论文结点的特征向量进行表示。y表示的是论文的分配结果,是隐含的变量,具体取值为Y={yi},yi取值于{1,2,3,…,K},每一个数字表示的是一个论文作者的编号。隐式马尔科夫随机场是一个生成模型,它假设X是由Y条件独立地生成的,因此有:
根据隐式马尔科夫随机场的基本理论,有:
P ( Y ) = 1 Z 1 exp ( Σ ( y i , y j ) ∈ E , k λ k f k ( y i , y j ) ) ,
Z 1 = Σ y i , y j Σ ( y i , y j ) ∈ E , k λ k f k ( y i , y j )
P ( X | Y ) = 1 Z 2 exp ( Σ x i ∈ X , l α l f l ( y i , x i ) ) ,
Z 2 = Σ y i Σ x i ∈ X , l α l f l ( y i , x i ) ,
其中,fk是用来表示边之间的特征方程,fl是用来表示点得势方程。λ和α用来表示权重,Z是归一化因子。
在聚类过程中,输出即得到给定一个论文结点x,求出其属于哪位作者,即P(Y|X)。算法迭代过程中,目的即为最大化P(Y|X)后验概率,记为Lmax。由贝叶斯公式:  P ( Y | X ) ∝ P ( X | Y ) · F ( Y ) 得:
L max = log ( 1 Z 1 Z 2 exp ( Σ ( y i , y j ) ∈ E , k λ k f k ( y i , y j ) + Σ x i , X , l α l f l ( y i , x i ) ) )
其中,
f k ( y i , y j ) = K ( x i , x j ) Σ r m ∈ R ij [ ω m r m ( x i , x j ) ] .
fl(yi,xi)=K(yi,xi)=K(μ(i),xi),
其中,K(xi,xj)表示计算结点间的相似度,u表示的是论文集合中心。rm表示的是论文间的关系。在迭代过程中,最大化L,并将论文进行分配,最后得到最终分配结果和最大的L值。隐式马尔科夫随机场在迭代过求解过程中与K—Means类似。对于含有隐含变量模型的求解,往往可以采用EM算法。具体的求解过程如下所示:
在聚类过程中,首先随机设置每一个参数的权重,并随机给每一个论文分配一个作者,根据分配过程,计算出每一个论文集合的中心。在聚类时,基于EM算法进行论文分配。在E步,根据推导的公式进行计算,使得L值最大时,将论文分配给相应的作者,即分配给最接近的中心论文结点所在的集合。在M步,根据新的分配结果,重新计算再每一个集合的中心论文结点,并按照梯度下降法求偏导更新每一个模型权重参数。直到两次完整E步的论文分配结果不再发生改变之时,认为迭代已经收敛,输出每一篇论文的分配结果和模型参数。这时,每一个簇即为对应的分配给每一个作者的论文。
步骤S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果。
步骤S3得到HRC结果之后,已经完成了初步的论文的命名排歧工作。接下来可以采用主动学习策略,进一步提升重名排歧工作性能。主动学习策略旨在主动选择出最少的让用户进行标注的论文,得到最大的命名排歧性能。
结合步骤S2和步骤S3的工作框架,可以主动从分配给每一个人的论文集合中选择出“最难以确定自动标注结果”的论文,让用户进行标注。
根据步骤S3的分配结果和隐式马尔科夫随机场,可以通过计算每一个论文结点的P(X|Y)进行选择。具体计算过程为,
给定一个标注值为yi的集合,即该集合的所有论文均分配给编号值为的yi作者,计算每一个论文结点xi的p(xi|yi)值。这个表达式的含义源于隐式马尔科夫随机场的生成模型的含义。即给定一个作者,由他生成论文结点的概率大小。因此找到每一个yi值中p(xi|yi)值小的论文结点,即物理意义上由该作者写作这篇论文概率小的结点,由用户进行主动标注。
除了在论文构成的无向网中找到生成概率小,即不确定度高的论文结点之外,还可以在网络中主动选择“影响力大”的结点,让用户进行标注。结合步骤S3聚类时的隐式马尔科夫随机场,可以从中选择每一个集合的中心结点论文进行标注。中心论文结点的“影响力最大”,是每一个作者最具有代表性的论文结点,因此,标注中心论文结点,会影响到网络中其他论文结点的分配结果。
用户的标注为二值结果,即用户只需要标注论文分配正确或是错误。标注的结果进行记录,然后作为初始高准确率发现原子论文集团的偏差分类器的训练数据集。有了更多标注数据及,可以进一步提高偏差分类器的工作性能。
S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。
根据本发明实施例的命名排歧方法,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
本发明第二方面实施例的命名排歧系统100,如图4所示,包括:提取模块101、分类模块102、聚类模块103和标注模块104。
提取模块101用于从原始论文集合中选取预定样本容量的论文集。分类模块102用于根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联。聚类模块103用于对每个原子论文集团进行聚类分析,以得到与所述作者对应的论文集合。标注模块104用于通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;以及将标注结果加入已标注数据集。
根据本发明实施例的命名排歧系统,分类模块根据已标注数据集将论文集进行分类,以获取多个原子论文集团,聚类模块对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。标注模块通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
需要说明的是,本发明实施例的命名排歧系统的具体实现方式与方法部分的具体实现方式类似,请参见方法部分的描述,为了减少冗余,此处不做赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种命名排歧方法,其特征在于,包括以下步骤:
S1,从原始论文集合中选取预定样本容量的论文集;
S2,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;
S3,根据作者对每个所述原子论文集团进行聚类分析,得到与所述作者对应的论文集合;
S4,通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;以及
S5,将所述标注结果加入所述已标注数据集,并重复执行步骤S1~S4直至所述原始论文集合中的论文标注完成。
2.如权利要求1所述的方法,其特征在于,所述步骤S2包括:
S21,根据所述论文特征关系从所述已标注数据集获取偏差分类器;以及
S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
3.如权利要求2所述的方法,其特征在于,所述偏差分类器包括:
初始化所述已标注数据集的权重;
利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;
利用偏差错误量值计算所述弱分类器的偏差误差;
从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;
更新所述已标注数据集的权重;以及
获取所述偏差分类器。
4.如权利要求1所述的方法,其特征在于,所述步骤S3包括:
S31,获取所述多个原子论文集团两两之间的相似度关系;
S32,利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;
S33,根据步骤S32的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;以及
S34,重复执行S32~S33直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。
5.一种命名排歧系统,其特征在于,包括:
提取模块,用于从原始论文集合中选取预定样本容量的论文集;
分类模块,用于根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;
聚类模块,用于根据作者对每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;
标注模块,用于通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;以及
将所述标注结果加入所述已标注数据集。
6.如权利要求5所述的系统,其特征在于,所述分类模块还用于,
根据所述论文特征关系从所述已标注数据集获取偏差分类器;及
利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
7.如权利要求6所述的系统,其特征在于,所述偏差分类器包括:
初始化所述已标注数据集的权重;
利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;
利用偏差错误量值计算所述弱分类器的偏差误差;
从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;
更新所述已标注数据集的权重;以及
获取所述偏差分类器。
8.如权利要求5所述的系统,其特征在于,所述聚类模块还用于,
获取所述多个原子论文集团两两之间的相似度关系;
利用隐式马尔科夫随机场模型将每个所述原子论文集团分配给最接近的论文中心结点所在的集合,并使得某篇论文属于某位作者的条件概率最大;
根据上述的分配结果,更新每个所述集合的所述中心结点以及所述隐式马尔科夫随机场模型的参数;以及
重复执行上述过程直至每个所述集合的所述中心结点的固定不变,并获取多个与预定作者对应的论文集合。
CN201510036663.3A 2015-01-23 2015-01-23 命名排歧方法及系统 Active CN104598599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510036663.3A CN104598599B (zh) 2015-01-23 2015-01-23 命名排歧方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510036663.3A CN104598599B (zh) 2015-01-23 2015-01-23 命名排歧方法及系统

Publications (2)

Publication Number Publication Date
CN104598599A true CN104598599A (zh) 2015-05-06
CN104598599B CN104598599B (zh) 2018-06-19

Family

ID=53124384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510036663.3A Active CN104598599B (zh) 2015-01-23 2015-01-23 命名排歧方法及系统

Country Status (1)

Country Link
CN (1) CN104598599B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701258A (zh) * 2016-03-31 2016-06-22 比美特医护在线(北京)科技有限公司 信息处理方法及装置
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN111104951A (zh) * 2018-10-25 2020-05-05 马上消费金融股份有限公司 一种主动学习方法、装置及终端设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088285A1 (en) * 2002-10-31 2004-05-06 Sbc Properties, L.P. Method and system for an automated disambiguation
US20070208683A1 (en) * 2006-02-01 2007-09-06 Tele Atlas North America, Inc. Method for differentiating duplicate or similarly named disjoint localities within a state or other principal geographic unit of interest
CN101447080A (zh) * 2008-11-19 2009-06-03 西安电子科技大学 基于非下采样Contourlet变换的HMT图像分割方法
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法
US20130159222A1 (en) * 2011-12-19 2013-06-20 Yahoo! Inc. Interactive interface for object search
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088285A1 (en) * 2002-10-31 2004-05-06 Sbc Properties, L.P. Method and system for an automated disambiguation
US20070208683A1 (en) * 2006-02-01 2007-09-06 Tele Atlas North America, Inc. Method for differentiating duplicate or similarly named disjoint localities within a state or other principal geographic unit of interest
CN101447080A (zh) * 2008-11-19 2009-06-03 西安电子科技大学 基于非下采样Contourlet变换的HMT图像分割方法
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法
US20130159222A1 (en) * 2011-12-19 2013-06-20 Yahoo! Inc. Interactive interface for object search
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701258A (zh) * 2016-03-31 2016-06-22 比美特医护在线(北京)科技有限公司 信息处理方法及装置
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN106294677B (zh) * 2016-08-04 2019-08-16 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN111104951A (zh) * 2018-10-25 2020-05-05 马上消费金融股份有限公司 一种主动学习方法、装置及终端设备
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110059180B (zh) * 2019-03-13 2022-09-23 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN104598599B (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
Leake et al. Towards case-based support for e-science workflow generation by mining provenance
Chen et al. Spreadsheet property detection with rule-assisted active learning
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN104598599A (zh) 命名排歧方法及系统
Zheng et al. A self-adaptive temporal-spatial self-training algorithm for semisupervised fault diagnosis of industrial processes
Weber et al. Investigating textual case-based XAI
Meng et al. Classifier ensemble selection based on affinity propagation clustering
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
Tkachenko et al. Comparative relation generative model
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
Zhang et al. Proximity-aware heterogeneous information network embedding
Zhang et al. Mining complex feature correlations from software product line configurations
Ilkhani et al. Extraction test cases by using data mining; reducing the cost of testing
Hong et al. Competitive self-training technique for sentiment analysis in mass social media
Chrisnanto et al. The uses of educational data mining in academic performance analysis at higher education institutions (case study at UNJANI)
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
Bochkaryov et al. The use of clustering algorithms ensemble with variable distance metrics in solving problems of web mining
Žitnik et al. Extracting gene regulation networks using linear-chain conditional random fields and rules
Lu et al. Research on RNA secondary structure prediction based on decision tree
Kumar et al. A data mining framework for social graph generation and analysis
Gu et al. Defining and identifying the optimal embedding dimension of networks
Bidgoli et al. Case Study: Data Mining of Associate Degree Accepted Candidates by Modular Method
Fatima et al. Software Requirements Prioritisation Using Machine Learning
Marques et al. An exploratory study to evaluate the practical application of PSS methods and tools based on text mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant