CN111881693A - 论文作者的消歧方法、装置和计算机设备 - Google Patents
论文作者的消歧方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111881693A CN111881693A CN202010740289.6A CN202010740289A CN111881693A CN 111881693 A CN111881693 A CN 111881693A CN 202010740289 A CN202010740289 A CN 202010740289A CN 111881693 A CN111881693 A CN 111881693A
- Authority
- CN
- China
- Prior art keywords
- name
- author
- papers
- paper
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术,揭示了论文作者的消歧方法,包括:将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;获取数据库中所有论文对应的关联关系异质网络;获取数据库中所有论文分别对应的论文语义表征;基于姓名树、关联关系异质网络和论文语义表征,构建相似矩阵;对相似矩阵进行聚类,得到数据库中所有论文对应的论文聚类群;判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群;若否,则判定待消歧作者与指定作者不同。通过对作者姓名进行预处理构建姓名树,然后根据姓名树消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名尽可能分在同一分组,提高姓名消歧的精准度。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及到论文作者的消歧方法、装置和计算机设备。
背景技术
论文数据库中存在庞大的论文数量,每篇论文涉及的作者往往不止一个,很难基于数据库形成每位作者唯一对应的学术ID,将数据库中论文和作者自然人实现唯一对应关系,实现对同名作者的论文区分,提高数据库检索精准度。但现有实现方式需要作者的高度参与,比如作者上传论文,并维护个人信息,使得作者使用的热情不高,导致很难推行,也因此数据库信息很难完整,数据库中论文和作者姓名的对应关系达不到可用的水平。
发明内容
本申请的主要目的为提供论文作者的消歧方法,旨在解决数据库中论文和作者姓名的对应关系达不到可用的水平的技术问题。
本申请提出一种论文作者的消歧方法,包括:
将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
获取所述数据库中所有论文分别对应的论文语义表征;
基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
若否,则判定所述待消歧作者与所述指定作者不同。
优选地,所述将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:
将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
优选地,所述依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:
获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
优选地,获取所述数据库中所有论文分别对应的论文语义表征的步骤,包括:
获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;
通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;
根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;
将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
优选地,获取所述数据库中所有论文对应的关联关系异质网络的步骤,包括:
获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;
对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;
若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;
基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
优选地,基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵的步骤,包括:
根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;
根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;
根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;
集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
优选地,所述对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤,包括:
根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;
将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
本申请还提供了一种论文作者的消歧装置,包括:
形成模块,用于将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
第一获取模块,用于获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
第二获取模块,用于获取所述数据库中所有论文分别对应的论文语义表征;
构建模块,用于基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
聚类模块,用于对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
第一判断模块,用于判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
判定模块,用于若不属于指定作者对应的论文聚类群,则判定所述待消歧作者与所述指定作者不同。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过对作者姓名进行预处理,包括将姓名拆解成不同的组成块,然后依据每个组成块分别通过包含的关系构建姓名树,然后根据姓名树形成作者信息对应的层次矩阵,消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名通过不同写法表达时,尽可能不会分隔在两个不同的分组,提高姓名消歧的精准度。
附图说明
图1本申请一实施例的论文作者的消歧方法流程示意图;
图2本申请一实施例的作者姓名的组成部分示意图;
图3本申请一实施例的作者姓名的姓名树的结构示意图;
图4本申请一实施例的论文作者的消歧装置结构示意图;
图5本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本实施例一种论文作者的消歧方法,包括:
S1:将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
S2:获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
S3:获取所述数据库中所有论文分别对应的论文语义表征;
S4:基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
S5:对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
S6:判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
S7:若否,则判定所述待消歧作者与所述指定作者不同。
本申请形成姓名树的预设规则包括,通过对作者姓名进行预处理,预处理过程包括将作者姓名拆解成不同的组成块,然后依据每个组成块分别通过包含的关系进行关联,构建姓名树。然后根据姓名树形成作者信息对应的层次矩阵,消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名通过不同写法表达时,尽可能不会分隔在两个不同的分组,提高姓名消歧的精准度。本申请通过综合考虑姓名树、关联关系异质网络和论文语义表征三个方面的因素,构建相似矩阵,扩大消歧参考的信息范围,进一步提高论文与作者一一对应的精准度。通过密度聚类算法的密度可达原理,集合所有与指定作者相关的论文形成论文聚类群,然后通过判断待消歧作者对应的论文聚类群,与指定作者对应的论文聚类群的关系,判断待消歧作者与指定作者是否为同一个作者。比如,待消歧作者对应的论文聚类群包含于指定作者对应的论文聚类群,则判定待消歧作者与指定作者为同一个作者,否者不是同一个作者,达到区分不同作者、消除歧义的目的,使论文和作者姓名实现精准的唯一对应关系。
进一步地,所述将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤S1,包括:
S11:将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
S12:将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
S13:依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
S14:以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
本申请的数据库中包括海量论文文本,为实现论文文本与作者姓名的准确对应、唯一对应的对应关系,需要对相同作者姓名不同作者自然人、相同作者自然人的姓名不同书写表达等引起的分类错误进行消歧。在进行消歧前,对所有论文中涉及的作者姓名进行聚类分块,将可能是同一作者自然人的姓名及相关文献关联在一起。本申请为准确识别同一作者自然人的作者姓名,将作者姓名进行预处理,过程如下:首先根据姓名组成规则将作者姓名分成几个组成部分。姓名一般由姓和名两部分组成,国内外的书写方式存在差异,有的姓排在名前,有的姓排在名后,作者姓名会因为各种原因出现书写顺序颠倒,比如zhang,wei,与wei,zhang;另外据不完全统计,姓名书写中常会出现简写的状态。为避免分类过程中的识别错误,本申请将作者姓名的表示规则重新调整。如图2所示,将姓和名按开头字母在英文字母表中的顺序排列,且不区分姓和名,如图中将逗号前面的Ferrari Marquez作为第一部分,逗号后面的Juan Luis作为第二部分,并将上述两部分的开头字母组合为F_J,作为第一名字即图中l1_name,因在英文字母表中,F排列J前面;将第一部分的第一个单词Ferrari称为l2_name,第一部分中Ferrari之外的剩余部分Marquez称为l4_name,将第二部分的第一个单词Juan称为l3_name,Juan之外的剩余部分Luis称为l5_name,这样可规避姓名书写中出现的引起作者姓名识别错误的情况,包括书写顺序颠倒、中间名省略、姓名简写等书写问题带来的分类时的识别错误,以保证同一位作者自然人的作者姓名,在不同写法表达时不会分隔在不同组。当然姓名拼写错误、改姓换名等人为修改的因素导致作者姓名发生了实质变化的因素除外。
进一步地,所述依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤S13,包括:
S131:获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
S132:将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
本申请在构建Name Tree时,根据l2_name和l3_name将作者姓名分块后,每个分块内部分别构建name Tree分支。如图3所示,即是作者姓名Ferrari Marquez,根据l2name和l3name形成的对应name tree。比如:Ferrari,Juan cruz,可能与Ferrari Luis,Juan cruz是同一作者自然人的作者姓名,仅是写法不同,因为luis^curz是^curz的子分支。nameTree子分支的下一级分支的构建方式,即是根据与l4name和l5name的包含关系来构建的。
进一步地,所述获取所述数据库中所有论文分别对应的论文语义表征的步骤S3,包括:
S31:获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;
S32:通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;
S33:根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;
S34:将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
本申请通过word2vec将每篇论文的内容转化成语义表征向量,并以此来计算论文之间的语义相似度,从而构建对论文分类的语义相似矩阵。构建论文语义表征时,将同一篇论文的标题内容和摘要内容中的多个词,分别通过word2vec得到各个词分别对应的向量,然后将各向量按照各个词原有的排序排列成论文的语义表征向量。在表征一篇论文的论文语义表征时,通过对上述标题内容和摘要内容分别对应的语义表征向量进行平均,通过全面考量标题内容和摘要内容,使得论文语义指向性更集中和精准,得到的论文语义表征与论文内容更贴切,以提高论文语义表征的精准度。
进一步地,所述获取所述数据库中所有论文对应的关联关系异质网络的步骤S2,包括:
S21:获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;
S22:对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;
S23:若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;
S24:基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
本申请为了挖掘不同论文的作者之间的关联关系,使用异质网络(heterogeneousnetwork)的元路径(metapath)方法,来构建首作者与协作者之间、以及首作者与工作机构之间的关系表征,形成关系相似矩阵。关联关系异质网络中用到的节点类型,包括同一论文的首作者与协作者,以及待消歧的首作者的工作机构信息,工作机构信息包括但不限于工作机构名称。然后使用网络嵌入(network embedding)来构建每篇论文的关联关系表征。本申请的关联关系异质网络中,各论文之间有两种边存在,一种是论文机构对应的边,另一种是论文共同作者对应的边。论文机构对应的边的度是共同词的数量,而论文共同作者对应的边的度则是共同作者的数量。
进一步地,所述基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵的步骤S4,包括:
S41:根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;
S42:根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;
S43:根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;
S44:集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
本申请的相似矩阵包括三个部分,分别为论文语义表征对应的相似矩阵、姓名树对应的层次相似矩阵以及关联关系异质网络中的关系相似矩阵,通过从不同影响因素获得的相似矩阵,综合评价待消歧作者与当前指定作者是否为同一作者自然人,以提高消歧精准度,使得论文和作者之间的唯一性对应关系更加明确、精准和具体。通过语义表征对应的相似矩阵,可考量待消歧作者是否与当前指定作者属于同一研究领域;通过姓名树对应的层次相似矩阵,可考量待消歧作者与当前指定作者的姓名是否同属于同一个姓名树中;通过关系相似矩阵,可考量待消歧作者与当前指定作者是否具有更接近的关系信息,上述关联信息包括但不限于共同合作的协作者是否大多数相同、工作的机构是否相同等。通过在相似矩阵中引入多个相关的核心对象,实现更全面、相互关联的信息分析,提高消歧精准度。本申请的关系相似矩阵,通过在关联关系异质网络中以任一论文为起始点开始对路径抽样,使用元路径随机游走策略,形成包含待消歧作者的节点信息的路径,汇集成关系相似矩阵。上述路径长度设置为相同的值,比如10,20等,再通过network embedding形成各路径对应的论文的embedding。
进一步地,所述对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤S5,包括:
S51:根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;
S52:将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
本申请使用密度聚类方式DBSCAN,对相似矩阵进行聚类计算,无需事先确定作者姓名的数量,且所需先验较少,便于计算处理。本申请的密度聚类算法通过密度可达的计算原理,确定三个核心对象分别对应的论文集群,然后并集形成论文聚类群。
进一步地,所述对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤S5之后,包括:
S501:判断是否存在离群论文;
S502:若是,则计算所述离群论文分别与各所述论文聚类群的相似度;
S503:将所述离群论文归类为相似度值最大时对应的论文聚类群。
本申请通过判断聚类后的数据库论文,是否存在不属于任何论文聚类群的离群论文对应的离群点,如果存在离群点,会使用相似度值最大的方式,将其归并到与其最相似的论文所在的论文聚类群,使数据库中的论文都能与各姓名树的作者形成对应关系,提高数据库中用于消歧的论文范围,以免存在消歧漏洞。本申请通过将所述离群论文归类为相似度值最大时对应的论文聚类群,使离群点对应的论文找到与作者的对应关系。本申请其他实施例中,可通过进一步比较相似度值最大时是否大于等于预设阈值,大于预设阈值的才将所述离群论文归类为相似度值最大时对应的论文聚类群,以提高聚类的精准性。当相似度值最大时小于预设阈值,则将此部分数据定义为噪音数据进行舍弃,或者对上述噪音数据引入人工分析校正,比如修改信息录入时的录入笔误、或核准改名换姓的身份,完成同一指定自然人证明等方式,使离群点对应的离群论文能够得到更精准的归类。
参照图4,本申请一实施例的论文作者的消歧装置,包括:
形成模块1,用于将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
第一获取模块2,用于获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
第二获取模块3,用于获取所述数据库中所有论文分别对应的论文语义表征;
构建模块4,用于基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
聚类模块5,用于对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
第一判断模块6,用于判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
判定模块7,用于若不属于指定作者对应的论文聚类群,则判定所述待消歧作者与所述指定作者不同。
本申请形成姓名树的预设规则包括,通过对作者姓名进行预处理,预处理过程包括将作者姓名拆解成不同的组成块,然后依据每个组成块分别通过包含的关系进行关联,构建姓名树。然后根据姓名树形成作者信息对应的层次矩阵,消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名通过不同写法表达时,尽可能不会分隔在两个不同的分组,提高姓名消歧的精准度。本申请通过综合考虑姓名树、关联关系异质网络和论文语义表征三个方面的因素,构建相似矩阵,扩大消歧参考的信息范围,进一步提高论文与作者一一对应的精准度。通过密度聚类算法的密度可达原理,集合所有与指定作者相关的论文形成论文聚类群,然后通过判断待消歧作者对应的论文聚类群,与指定作者对应的论文聚类群的关系,判断待消歧作者与指定作者是否为同一个作者。比如,待消歧作者对应的论文聚类群包含于指定作者对应的论文聚类群,则判定待消歧作者与指定作者为同一个作者,否者不是同一个作者,达到区分不同作者、消除歧义的目的,使论文和作者姓名实现精准的唯一对应关系。
进一步地,形成模块1,包括:
拆分单元,用于将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
组合单元,用于将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
第一形成单元,用于依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
第一链接单元,用于以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
本申请的数据库中包括海量论文文本,为实现论文文本与作者姓名的准确对应、唯一对应的对应关系,需要对相同作者姓名不同作者自然人、相同作者自然人的姓名不同书写表达等引起的分类错误进行消歧。在进行消歧前,对所有论文中涉及的作者姓名进行聚类分块,将可能是同一作者自然人的姓名及相关文献关联在一起。本申请为准确识别同一作者自然人的作者姓名,将作者姓名进行预处理,过程如下:首先根据姓名组成规则将作者姓名分成几个组成部分。姓名一般由姓和名两部分组成,国内外的书写方式存在差异,有的姓排在名前,有的姓排在名后,作者姓名会因为各种原因出现书写顺序颠倒,比如zhang,wei,与wei,zhang;另外据不完全统计,姓名书写中常会出现简写的状态。为避免分类过程中的识别错误,本申请将作者姓名的表示规则重新调整。如图2所示作者姓名“FerrariMarquez,Juan Luis”,将姓和名按开头字母在英文字母表中的顺序排列,且不区分姓和名,如图中将逗号前面的Ferrari Marquez作为第一部分,逗号后面的Juan Luis作为第二部分,并将上述两部分的开头字母组合为F_J,作为第一名字即图中l1_name,因在英文字母表中,F排列J前面;将第一部分的第一个单词Ferrari称为l2_name,第一部分中Ferrari之外的剩余部分Marquez称为l4_name,将第二部分的第一个单词Juan称为l3_name,Juan之外的剩余部分Luis称为l5_name,这样可规避姓名书写中出现的引起作者姓名识别错误的情况,包括书写顺序颠倒、中间名省略、姓名简写等书写问题带来的分类时的识别错误,以保证同一位作者自然人的作者姓名,在不同写法表达时不会分隔在不同组。当然姓名拼写错误、改姓换名等人为修改的因素导致作者姓名发生了实质变化的因素除外。
进一步地,第一形成单元,包括:
获取子单元,用于获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
形成子单元,用于将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
本申请在构建Name Tree时,根据l2_name和l3_name将作者姓名分块后,每个分块内部分别构建name Tree分支。如图3所示,即是作者姓名Ferrari Marquez,根据l2name和l3name形成的对应name tree。比如:Ferrari,Juan cruz,可能与Ferrari Luis,Juan cruz是同一作者自然人的作者姓名,仅是写法不同,因为luis^curz是^curz的子分支。nameTree子分支的下一级分支的构建方式,即是根据与l4name和l5name的包含关系来构建的。
进一步地,第二获取模块3,包括:
第一获取单元,用于获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;
第二获取单元,用于通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;
计算单元,用于根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;
第一作为单元,用于将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
本申请通过word2vec将每篇论文的内容转化成语义表征向量,并以此来计算论文之间的语义相似度,从而构建对论文分类的语义相似矩阵。构建论文语义表征时,将同一篇论文的标题内容和摘要内容中的多个词,分别通过word2vec得到各个词分别对应的向量,然后将各向量按照各个词原有的排序排列成论文的语义表征向量。在表征一篇论文的论文语义表征时,通过对上述标题内容和摘要内容分别对应的语义表征向量进行平均,通过全面考量标题内容和摘要内容,使得论文语义指向性更集中和精准,得到的论文语义表征与论文内容更贴切,以提高论文语义表征的精准度。
进一步地,第一获取模块2,包括:
第三获取单元,用于获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;
比较单元,用于对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;
第二链接单元,用于若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;
第二形成单元,用于基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
本申请为了挖掘不同论文的作者之间的关联关系,使用异质网络(heterogeneousnetwork)的元路径(metapath)方法,来构建首作者与协作者之间、以及首作者与工作机构之间的关系表征,形成关系相似矩阵。关联关系异质网络中用到的节点类型,包括同一论文的首作者与协作者,以及待消歧的首作者的工作机构信息,工作机构信息包括但不限于工作机构名称。然后使用网络嵌入(network embedding)来构建每篇论文的关联关系表征。本申请的关联关系异质网络中,各论文之间有两种边存在,一种是论文机构对应的边,另一种是论文共同作者对应的边。论文机构对应的边的度是共同词的数量,而论文共同作者对应的边的度则是共同作者的数量。
进一步地,构建模块4,包括:
第三形成单元,用于根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;
第四获取单元,用于根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;
第二作为单元,用于根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;
第四形成单元,用于集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
本申请的相似矩阵包括三个部分,分别为论文语义表征对应的相似矩阵、姓名树对应的层次相似矩阵以及关联关系异质网络中的关系相似矩阵,通过从不同影响因素获得的相似矩阵,综合评价待消歧作者与当前指定作者是否为同一作者自然人,以提高消歧精准度,使得论文和作者之间的唯一性对应关系更加明确、精准和具体。通过语义表征对应的相似矩阵,可考量待消歧作者是否与当前指定作者属于同一研究领域;通过姓名树对应的层次相似矩阵,可考量待消歧作者与当前指定作者的姓名是否同属于同一个姓名树中;通过关系相似矩阵,可考量待消歧作者与当前指定作者是否具有更接近的关系信息,上述关联信息包括但不限于共同合作的协作者是否大多数相同、工作的机构是否相同等。通过在相似矩阵中引入多个相关的核心对象,实现更全面、相互关联的信息分析,提高消歧精准度。本申请的关系相似矩阵,通过在关联关系异质网络中以任一论文为起始点开始对路径抽样,使用元路径随机游走策略,形成包含待消歧作者的节点信息的路径,汇集成关系相似矩阵。上述路径长度设置为相同的值,比如10,20等,再通过network embedding形成各路径对应的论文的embedding。
进一步地,聚类模块5,包括:
第五获取单元,用于根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;
集合单元,用于将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
本申请使用密度聚类方式DBSCAN,对相似矩阵进行聚类计算,无需事先确定作者姓名的数量,且所需先验较少,便于计算处理。本申请的密度聚类算法通过密度可达的计算原理,确定三个核心对象分别对应的论文集群,然后并集形成论文聚类群。
进一步地,论文作者的消歧装置,包括:
第二判断模块,用于判断是否存在离群论文;
计算模块,用于若存在离群论文,则计算所述离群论文分别与各所述论文聚类群的相似度;
归类模块,用于将所述离群论文归类为相似度值最大时对应的论文聚类群。
本申请通过判断聚类后的数据库论文,是否存在不属于任何论文聚类群的离群论文对应的离群点,如果存在离群点,会使用相似度值最大的方式,将其归并到与其最相似的论文所在的论文聚类群,使数据库中的论文都能与各姓名树的作者形成对应关系,提高数据库中用于消歧的论文范围,以免存在消歧漏洞。本申请通过将所述离群论文归类为相似度值最大时对应的论文聚类群,使离群点对应的论文找到与作者的对应关系。本申请其他实施例中,可通过进一步比较相似度值最大时是否大于等于预设阈值,大于预设阈值的才将所述离群论文归类为相似度值最大时对应的论文聚类群,以提高聚类的精准性。当相似度值最大时小于预设阈值,则将此部分数据定义为噪音数据进行舍弃,或者对上述噪音数据引入人工分析校正,比如修改信息录入时的录入笔误、或核准改名换姓的身份,完成同一指定自然人证明等方式,使离群点对应的离群论文能够得到更精准的归类。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储论文作者的消歧过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现论文作者的消歧方法。
上述处理器执行上述论文作者的消歧方法,包括:将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;获取所述数据库中所有论文分别对应的论文语义表征;基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;若否,则判定所述待消歧作者与所述指定作者不同。
上述计算机设备,通过对作者姓名进行预处理,包括将姓名拆解成不同的组成块,然后依据每个组成块分别通过包含的关系构建姓名树,然后根据姓名树形成作者信息对应的层次矩阵,消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名通过不同写法表达时,尽可能不会分隔在两个不同的分组,提高姓名消歧的精准度。
在一个实施例中,上述处理器将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
在一个实施例中,上述处理器依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
在一个实施例中,上述处理器获取所述数据库中所有论文分别对应的论文语义表征的步骤,包括:获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
在一个实施例中,上述处理器获取所述数据库中所有论文对应的关联关系异质网络的步骤,包括:获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
在一个实施例中,上述处理器基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵的步骤,包括:根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
在一个实施例中,上述处理器对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤,包括:根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现论文作者的消歧方法,包括:将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;获取所述数据库中所有论文分别对应的论文语义表征;基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;若否,则判定所述待消歧作者与所述指定作者不同。
上述计算机可读存储介质,通过对作者姓名进行预处理,包括将姓名拆解成不同的组成块,然后依据每个组成块分别通过包含的关系构建姓名树,然后根据姓名树形成作者信息对应的层次矩阵,消除了姓名书写存在不同表述方式时引起的聚类误差,保证同一位作者的姓名通过不同写法表达时,尽可能不会分隔在两个不同的分组,提高姓名消歧的精准度。
在一个实施例中,上述处理器将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
在一个实施例中,上述处理器依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
在一个实施例中,上述处理器获取所述数据库中所有论文分别对应的论文语义表征的步骤,包括:获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
在一个实施例中,上述处理器获取所述数据库中所有论文对应的关联关系异质网络的步骤,包括:获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
在一个实施例中,上述处理器基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵的步骤,包括:根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
在一个实施例中,上述处理器对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤,包括:根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种论文作者的消歧方法,其特征在于,包括:
将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
获取所述数据库中所有论文分别对应的论文语义表征;
基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
若否,则判定所述待消歧作者与所述指定作者不同。
2.根据权利要求1所述的论文作者的消歧方法,其特征在于,所述将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树的步骤,包括:
将指定姓名依据书写分隔符,按照开头字母处于英文字母表中排序,由前至后拆分成第一部分和第二部分,其中,所述指定姓名为所述数据库中所有论文涉及的作者姓名中的任意一个;
将所述第一部分和所述第二部分分别对应的首字母组合为第一名字,将所述第一部分对应的第一个单词作为第二名字,将所述第二部分对应的第一个单词作为第三名字,将所述第一部分的第一个单词之外的剩余部分作为第四名字,将所述第二部分的第一个单词之外的剩余部分作为第五名字;
依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支;
以所述第一名字为根目录,链接所述第一分支和所述第二分支,形成所述指定姓名对应的姓名树。
3.根据权利要求2所述的论文作者的消歧方法,其特征在于,所述依据所述第四名字形成所述第二名字对应的第一分支,以及依据所述第五名字形成所述第三名字对应的第二分支的步骤,包括:
获取与所述第四名字满足预设相似度的各第一名字组合,获取与所述第五名字满足所述预设相似度的各第二名字组合;
将各所述第一名字组合并列连接所述第二名字,形成所述第一分支,将各所述第二名字组合并列连接所述第三名字,形成所述第二分支。
4.根据权利要求1所述的论文作者的消歧方法,其特征在于,获取所述数据库中所有论文分别对应的论文语义表征的步骤,包括:
获取指定论文的标题内容和摘要内容;其中,所述指定论文为所述数据库中所有论文中的任意一篇论文;
通过word2vec获取所述标题内容和摘要内容中每个词分别对应的语义表征向量;
根据所述标题内容和摘要内容中每个词分别对应的语义表征向量,计算所述标题内容和摘要内容分别对应的语义表征向量的平均值;
将所述语义表征向量的平均值,作为所述指定论文对应的论文语义表征。
5.根据权利要求1所述的论文作者的消歧方法,其特征在于,获取所述数据库中所有论文对应的关联关系异质网络的步骤,包括:
获取各论文中分别包括的各首作者与协作者,以及各所述首作者的工作机构信息,作为所述关联关系异质网络的论文节点类型;
对所述数据库中的论文进行两两比较,判断各论文的所述首作者的工作机构信息分别对应的共同词的数量,是否超过第一预设数量,判断各论文的首作者与协作者中分别存在的共同作者的数量,是否超过第二预设数量;
若是,则链接共同词的数量超过第一预设数量的两篇论文对应的节点,形成论文机构对应的边,链接共同作者的数量超过第二预设数量的两篇论文对应的节点,形成论文共同作者对应的边;
基于各所述首作者与协作者、各所述首作者的工作机构信息,分别对应的论文节点类型,以及各所述论文机构对应的边、各所述论文共同作者对应的边,形成所述关联关系异质网络。
6.根据权利要求1所述的论文作者的消歧方法,其特征在于,基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵的步骤,包括:
根据所述待消歧作者的姓名树,形成所述相似矩阵的第一核心对象;
根据预设的路径长度,通过元路径随机游走策略,在所述关联关系异质网络中获取所有包括所述待消歧作者的论文的路径,作为所述相似矩阵的第二核心对象;
根据所述待消歧作者的所有论文的论文语义表征,作为所述相似矩阵的第三核心对象;
集成所述第一核心对象、所述第二核心对象和所述第三核心对象,形成所述待消歧作者对应的相似矩阵。
7.根据权利要求6所述的论文作者的消歧方法,其特征在于,所述对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群的步骤,包括:
根据密度聚类算法,获取所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文;
将所述第一核心对象、所述第二核心对象和所述第三核心对象分别对应的密度可达的论文,集合为所述论文聚类群。
8.一种论文作者的消歧装置,其特征在于,包括:
形成模块,用于将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树;
第一获取模块,用于获取所述数据库中所有论文对应的关联关系异质网络,其中,所述关联关系异质网络包括作者与协作者关联关系、以及作者与机构关联关系;
第二获取模块,用于获取所述数据库中所有论文分别对应的论文语义表征;
构建模块,用于基于所述姓名树、所述关联关系异质网络和所述论文语义表征,构建相似矩阵;
聚类模块,用于对所述相似矩阵进行聚类,得到所述数据库中所有论文对应的论文聚类群;
第一判断模块,用于判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群,其中,所述指定作者为数据库中所有论文涉及的所有作者中的任意一个;
判定模块,用于若不属于指定作者对应的论文聚类群,则判定所述待消歧作者与所述指定作者不同。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740289.6A CN111881693B (zh) | 2020-07-28 | 2020-07-28 | 论文作者的消歧方法、装置和计算机设备 |
PCT/CN2020/118531 WO2021139256A1 (zh) | 2020-07-28 | 2020-09-28 | 论文作者的消歧方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010740289.6A CN111881693B (zh) | 2020-07-28 | 2020-07-28 | 论文作者的消歧方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881693A true CN111881693A (zh) | 2020-11-03 |
CN111881693B CN111881693B (zh) | 2023-01-13 |
Family
ID=73200336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010740289.6A Active CN111881693B (zh) | 2020-07-28 | 2020-07-28 | 论文作者的消歧方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111881693B (zh) |
WO (1) | WO2021139256A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN112528089A (zh) * | 2020-12-04 | 2021-03-19 | 平安科技(深圳)有限公司 | 论文作者消歧的方法、装置和计算机设备 |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
CN113111178A (zh) * | 2021-03-04 | 2021-07-13 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869461B (zh) * | 2021-07-21 | 2024-03-12 | 中国人民解放军国防科技大学 | 一种用于科学合作异质网络的作者迁移分类方法 |
CN113672706B (zh) * | 2021-08-31 | 2024-04-26 | 清华大学苏州汽车研究院(相城) | 一种基于属性异质网络的文本摘要抽取方法 |
CN117312565B (zh) * | 2023-11-28 | 2024-02-06 | 山东科技大学 | 一种基于关系融合与表示学习的文献作者姓名消歧方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080049239A (ko) * | 2006-11-30 | 2008-06-04 | 한국과학기술정보연구원 | 원문으로부터의 정보추출기법을 사용한 동명저자 중의성해소 방법 |
US20080275859A1 (en) * | 2007-05-02 | 2008-11-06 | Thomson Corporation | Method and system for disambiguating informational objects |
US20120303557A1 (en) * | 2011-05-28 | 2012-11-29 | Microsoft Corporation | Interactive framework for name disambiguation |
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其系统 |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109670014A (zh) * | 2018-11-21 | 2019-04-23 | 北京大学 | 一种基于规则匹配和机器学习的论文作者名消歧方法 |
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10360503B2 (en) * | 2012-12-01 | 2019-07-23 | Sirius-Beta Corporation | System and method for ontology derivation |
CN106372239A (zh) * | 2016-09-14 | 2017-02-01 | 电子科技大学 | 一种基于异质网络的社交网络事件关联分析方法 |
CN111325326A (zh) * | 2020-02-21 | 2020-06-23 | 北京工业大学 | 一种基于异质网络表示学习的链路预测方法 |
-
2020
- 2020-07-28 CN CN202010740289.6A patent/CN111881693B/zh active Active
- 2020-09-28 WO PCT/CN2020/118531 patent/WO2021139256A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080049239A (ko) * | 2006-11-30 | 2008-06-04 | 한국과학기술정보연구원 | 원문으로부터의 정보추출기법을 사용한 동명저자 중의성해소 방법 |
US20080275859A1 (en) * | 2007-05-02 | 2008-11-06 | Thomson Corporation | Method and system for disambiguating informational objects |
US20120303557A1 (en) * | 2011-05-28 | 2012-11-29 | Microsoft Corporation | Interactive framework for name disambiguation |
CN104111973A (zh) * | 2014-06-17 | 2014-10-22 | 中国科学院计算技术研究所 | 一种学者重名的消歧方法及其系统 |
CN106055539A (zh) * | 2016-05-27 | 2016-10-26 | 中国科学技术信息研究所 | 姓名消歧的方法和装置 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109670014A (zh) * | 2018-11-21 | 2019-04-23 | 北京大学 | 一种基于规则匹配和机器学习的论文作者名消歧方法 |
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
Non-Patent Citations (2)
Title |
---|
YUTAO ZHANG ET AL.: "Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop", 《KDD 2018》 * |
邓可君 等: "基于机器学习的论文作者名消歧方法研究", 《四川大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191466A (zh) * | 2019-12-25 | 2020-05-22 | 中国科学院计算机网络信息中心 | 一种基于网络表征和语义表征的同名作者消歧方法 |
CN112528089A (zh) * | 2020-12-04 | 2021-03-19 | 平安科技(深圳)有限公司 | 论文作者消歧的方法、装置和计算机设备 |
CN112528089B (zh) * | 2020-12-04 | 2023-11-14 | 平安科技(深圳)有限公司 | 论文作者消歧的方法、装置和计算机设备 |
CN113111178A (zh) * | 2021-03-04 | 2021-07-13 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
CN113111178B (zh) * | 2021-03-04 | 2021-12-10 | 中国科学院计算机网络信息中心 | 无监督的基于表示学习的同名作者消歧方法及装置 |
CN113051397A (zh) * | 2021-03-10 | 2021-06-29 | 北京工业大学 | 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021139256A1 (zh) | 2021-07-15 |
CN111881693B (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881693B (zh) | 论文作者的消歧方法、装置和计算机设备 | |
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN110147445A (zh) | 基于文本分类的意图识别方法、装置、设备及存储介质 | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
WO2021114810A1 (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN111737977B (zh) | 数据字典生成方法、数据查询方法、装置、设备及介质 | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN110162681B (zh) | 文本识别、文本处理方法、装置、计算机设备和存储介质 | |
CN112347340B (zh) | 信息搜索方法、装置和计算机设备 | |
CN110175273B (zh) | 文本处理方法、装置、计算机可读存储介质和计算机设备 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN112560443B (zh) | 选择题生成模型训练方法、选择题生成方法、设备及介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN112766319A (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN109446336B (zh) | 新闻筛选的方法、装置、计算机设备和存储介质 | |
CN112580363A (zh) | 需求文档处理方法、装置、计算机设备及存储介质 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN109388707B (zh) | 短文本分类方法及装置 | |
CN108595437B (zh) | 文本查询纠错方法、装置、计算机设备和存储介质 | |
CN113111178B (zh) | 无监督的基于表示学习的同名作者消歧方法及装置 | |
CN111858467B (zh) | 基于人工智能的文件数据处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |