CN114969387A - 文献作者信息消歧方法、装置及电子设备 - Google Patents

文献作者信息消歧方法、装置及电子设备 Download PDF

Info

Publication number
CN114969387A
CN114969387A CN202210611373.7A CN202210611373A CN114969387A CN 114969387 A CN114969387 A CN 114969387A CN 202210611373 A CN202210611373 A CN 202210611373A CN 114969387 A CN114969387 A CN 114969387A
Authority
CN
China
Prior art keywords
document
information
author
documents
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210611373.7A
Other languages
English (en)
Inventor
张瀚允
李学文
房小涵
魏玉聪
李欣谚
宋健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202210611373.7A priority Critical patent/CN114969387A/zh
Publication of CN114969387A publication Critical patent/CN114969387A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种文献作者信息消歧方法、装置及电子设备,涉及计算机技术领域,方法包括:获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。

Description

文献作者信息消歧方法、装置及电子设备
技术领域
本公开涉及计算机技术领域,尤其涉及一种文献作者信息消歧方法、装置及电子设备。
背景技术
随着信息技术和社会的发展,全网各类文献的数据量级呈指数级上升。目前,数字图书馆中已经存放了海量文献,比如论文、专利、基金项目、软件著作权、专著等,与此同时,作者同名歧义的问题也愈发严重。例如,论文(paper)同名歧义问题发源于多个论文库甚至单个论文库内的论文下的作者存在同名情况,随后暴露于多个源库聚合操作之后。论文作者同名消歧问题旨在将记载同名专家的多个文档进行区分,将拥有相同姓名的文档映射到现实世界中的专家实体,用以消除相同姓名造成的歧义。相关技术中,通常采用聚类的方式进行文献作者信息的消歧处理,但是其只使用了某些单一强特征进行聚类,对数据的特征提取较为低效和低质,因此影响消歧结果的准确性。
发明内容
本公开提出了一种文献作者信息消歧方法、装置及电子设备,旨在至少在一定程度上解决相关技术中的技术问题之一。
本公开第一方面实施例提出了一种文献作者信息消歧方法,包括:获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
本公开第二方面实施例提出了一种文献作者信息消歧装置,包括:获取模块,用于获取多篇待消歧的目标文献;计算模块,用于采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;融合模块,用于根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵;以及聚类模块,用于基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
本公开第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例的文献作者信息消歧方法。
本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的文献作者信息消歧方法。
本实施例中,通过获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图;
图2是根据本公开实施例提供的文献特征处理过程示意图;
图3是根据本公开实施例提供的元路径随机游走示意图;
图4是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图;
图5是根据本公开实施例提供的文献作者信息消歧系统的架构示意图;
图6是根据本公开实施例提供的文献作者信息消歧过程示意图;
图7是根据本公开另一实施例提供的文献作者信息消歧装置的示意图;
图8示出了适于用来实现本公开实施方式的示例性电子设备的框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
需要说明的是,本实施例的文献作者信息消歧方法的执行主体可以为文献作者信息消歧装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
图1是根据本公开一实施例提供的文献作者信息消歧方法的流程示意图,如图1所示,该方法包括:
S101:获取多篇待消歧的目标文献。
其中,需要进行作者信息(姓名)消歧处理的文献可以被称为目标文献,目标文献例如论文、专利、基金项目、软件著作权、专著以及其它任意可能类型的文献,对此不作限制。一些实施例中,多篇待消歧的目标文献例如可以是作者姓名相同的文献。
S102:采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵。
上述获取多篇目标文献后,进一步地,本实施例可以采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,也即是说,可以对目标文献进行不同层级的特征抽取,计算在不同层级特征下的相似度矩阵。
在一个具体实例中,图2是根据本公开实施例提供的文献特征处理过程示意图,如图2所示,多篇目标文献例如可以是多篇论文(论文数据),而本实施例的多种特征信息例如包括浅层语义信息、中层语义信息、深层语义信息、结构关系信息(例如文献作者CoAuthor,文献组织CoOrg,文献标题CoTitle结构关系)、多种文献标签信息(也可以称为综合信息)中的一种或者多种信息,对此不作限制。也即是说,本实施例可以分别计算多篇论文在浅层语义信息、中层语义信息、深层语义信息、结构关系信息、综合信息下的相似度矩阵,每个相似度矩阵可以表征多篇论文在该特征下的相似性。
具体地,本实施例首先可以采用word2vec、doc2vec模型(其中一种预设算法)计算出多篇论文浅层语义信息的embedding向量,其可以分别用E1、E2表示,计算公式如下:
E1=Word2Vec(Text)
E2=Doc2Vec(Text)
对于中层语义信息,本实施例可以采用sentence_transformer、OAG-BERT模型(其中一种预设算法)计算出多篇论文中层语义信息的embedding向量,其可以分别用E3、E4表示,计算公式如下:
E3=Sentence_Transformer(Text)
E4=OAG-Bert(Text)
而对于深层语义信息,本实施例可以采用广义线性模型,即:GLM模型(预设算法)计算出对应的embedding向量,其可以表示为E5,计算公式如下:
E5=WuDao-GLM(Text)
而对于文献作者CoAuthor,文献组织CoOrg,文献标题CoTitle结构关系信息,本实施例可以采用元路径随机游走算法(预设算法)计算结构关系信息的embedding向量,其可以用E6表示。具体地,图3是根据本公开实施例提供的元路径随机游走示意图,如图3所示,本实施例可以对多篇论文构建异质图网络,该异质网络包含一种类型的节点(论文(每个论文表示一个节点))和3种类型的边(CoAuthor,CoOrg,CoTitle),首先进行异质图下的随机游走,本实施例例如置4跳为随机游走步数阈值,得到多个元路径集合,然后对元路径集合进行处理,得到embedding向量E6,计算过程如下:
E6=MetaPathRandomWalk(Graph(coPapers,coAuthors,coTitles))
上述得到浅层语义信息、中层语义信息、深层语义信息、结构关系信息的embedding向量后,即:E1、E2、E3、E4、E5、E6;进一步地,分别计算多篇论文每种向量(E1、E2、E3、E4、E5、E6)之间的距离(例如余弦距离),并将距离以矩阵的方式保存,得到对应的相似度矩阵,其可以用Di表示,计算过程如下:
Di=Cosine_Similarity(Ei),i∈[1,2,3,4,5,6]
而对于综合信息的相似度矩阵,本实施例可以获取多篇论文之间的综合信息,例如包括年份、地点、期刊会议、共同作者、姓名idf值等信息;进一步地,将两两论文的年份、期刊会议、共同作者、姓名idf值等进行编码表征;之后使用监督学习范式有针对性地对综合信息使用LightGBM和XGBoost(预设算法)进行集成。模型训练过程中将属于同一聚簇的任意两个论文标签设为1,否则设为0,作为分类任务进行训练,且正负标签比例接近1:1,训练完成后保存模型。通过该集成模型可以对任意两篇论文给出一个相似度得分,该得分作为两篇论文之间的距离。通过该方法可以得到任意两篇论文之间的距离,将所有论文两两之间距离以矩阵方式保存,作为综合信息下的相似度矩阵,其可以表示为D7,公式如下:
D7=λ1LightGBM(ReleaseTime,Venue,Conference,META-IDF...)+λ2XGBoost(ReleaseTime,Venue,Conference,META-IDF...)
可以理解的是,上述实例只是以计算浅层语义信息、中层语义信息、深层语义信息、结构关系信息、综合信息的相似度矩阵进行示例性说明,在实际应用中,还可以计算论文其它特征的相似度矩阵,对此不作限制。
S103:根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵。
其中,本实施例可以针对上述的7个相似度矩阵(D1-D7)分配对应的权重参数,权重参数可以用φi表示,φi∈[0,1](i=1,2,...,7)。
本实施例可以根据该权重参数对多个相似度矩阵进行融合,得到融合矩阵,其可以表示为:
Matric=φ1D12D23D34D45D56D67D7
S104:基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
也即是说,本实施例可以基于融合矩阵进行聚类,得到多个聚类簇,其中每个聚类簇可以对应一个作者信息(例如包括姓名、性别、年龄、电话、邮箱等)和其名下的目标文献,从而可以将聚类簇的作者信息作为构成其聚类簇的目标论文的作者信息,保证每个目标文献都可以有唯一准确的作者信息,实现对同名作者的消歧处理。
其中,可以采用任意的聚类算法(例如DBSCAN聚类算法)对融合矩阵进行聚类,并且可以进行一轮或者多轮的聚类,例如:第一轮聚类完成之后,若存在轮廓系数低于阈值的论文则调低轮廓系数进行第二轮聚类,直至所有目标文献均可以分配到对应的类别中,聚类过程完成。
在一个具体实例中,可以采用层次聚类算法AgglomerativeClustering,对当前目标文献以及多个目标文献中的其它文献进行不同层级的特征抽取得到相似度矩阵,随后将得到的多个相似度矩阵融合,通过聚类算法进行聚类。
一些实施例中,还可以使用Macro Pairwise-F1算法对聚类过程进行评测,并使用参数的网格搜索技术对聚类算法的最优参数组合进行搜索。
本实施例中,通过获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。
图4是根据本公开另一实施例提供的文献作者信息消歧方法的流程示意图,如图4所示,该方法包括:
S401:获取多篇待消歧的第一候选文献。
其中,需要作者姓名消歧处理的文献可以被称为第一候选文献,而本实施例的目标文献属于第一候选文献,也即是说,本实施例可以从第一候选文献中获取部分文献作为目标文献。而第一候选文献例如可以是从网上获取的开源数据,例如论文、专利、期刊等,本实施例将以论文作为第一候选文献进行示例性说明。
其中,本实施例获取的第一候选文献(论文)可能存在数据缺失、数据错误等,例如有的论文没有作者author信息、作者的姓和名被拆分成了两个作者、论文大部分字段缺失、以及存在不是论文的文档。在这种情况下,本实施例可以对第一候选论文进行数据清洗,一些实施例,可以通过标题的长度、作者名字规范度、字段覆盖度等指标将错误的论文过滤掉,例如要求标题中必须有空格、作者姓名字符串最短长度必须大于3并且含有空格等。
一些实施例中,在第一候选文献为英文文献的情况下,美式英语和英式英语之间会存在拼写体系差异化、姓与名顺序颠倒、多作者姓名粘连等问题。在这种情况下,本实施例可以采用预先构建的英文姓名规则(也可以称为英文字典),对英文第一候选文献的作者姓名进行归一化处理,得到作者姓名唯一的英文表示。其中,英文姓名规则实例如下:
Dictname{"First Name":["John","Donald","Joseph"...],
"Last Name":["Smith","Trump","Biden"...]}
从而,本实施例可以在作者信息消歧之前对英文姓名进行归一化处理,可以消除英文姓名格式上的误差,有利于后续进行统一消歧处理。
图5是根据本公开实施例提供的文献作者信息消歧系统的架构示意图,如图5所示,本实施例提供的文献作者信息消歧系统(Project Name Disambiguation)支持过滤(Filter)、分类(classification)、聚类(clustering)、验证(Error Check)、人工标注(manually annotate)等运算过程,并且采用elastic search集群和分布式文件存储的数据库Mongo数据库对获取的第一候选文献进行存储,提供数据快速的搜索;并且,使用redis缓存型的数据库对数据进行缓存,为运算快速提供数据。
S402:将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配。
其中,本实施例可以预先构建文献作者库(也可以称为专家库),其中可以包括众多论文作者(专家)的作者信息。
而作者唯一标识信息例如可以是作者的开放研究者与贡献者身份识别码(OpenResearcher and Contributor ID,ORCID)、email以及其它任意可能的唯一标识信息,对此不作限制。
而本实施例可以将经过数据清洗(以及英名姓名归一化处理)后的每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配,也即是说,将第一候选文献的作者ORCID和\或email等信息与专家库中专家的ORCID和\或email信息进行匹配。
S403:确定匹配成功的第一候选文献的作者信息和未匹配成功的多篇第二候选文献。
其中,匹配成功表示专家库中存在该第一候选文献的作者信息,则可以将该专家的信息作为匹配成功的第一候选文献的作者信息。
而第一候选文献中未匹配成功的文献可以被称为第二候选文献,进一步地可以对第二候选文献进行处理。从而,本实施例采用专家库匹配的方式可以快速对部分文献的作者信息进行消歧处理,并且减少后续的计算数据量。
S404:计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值。
其中,目标文献库也可以称为备选集,其中可以记录多篇备选文献。一些实施例,每个作者姓名例如可以对应一个备选集,也即是说,备选集中可以记录相同作者姓名的多篇备选文献,而本实施例可以根据每篇第二候选文献的作者姓名确定对应的备选集(即,目标文献库)。其中,本实施例可以采用Mongo数据库自主构建论文搜索ElasticSearch库,支持快速构建备选集。
在确定目标文献库后,本实施例可以分别计算每篇第二候选文献与目标文献库中每篇备选文献的相似度分值,以得到多个相似度分值。
举例而言,可以根据每篇备选文献的作者信息及文献信息建立第一特征向量,其中,作者信息例如包括姓名(name)、出生日期(birthday)、性别(gender)、邮件(email)、语言(language)、电话号码(telephone)、常住地址(position)等信息,而文献信息例如包括备选文献(论文)的标题(title)、摘要(abstract)、关键词(keyword)、期刊(venue)、会议(conference)、合作作者(author)、组织机构(organization)、发表时间(RealeaseTime)等。其中,可以对备选文献的作者信息建立对应的向量,其可以表示为EGLM-Person1=GLM(name,birthday,gender,email,language,telephone,position...),对备选文献的文献信息建立对应的向量,其可以表示为EGLM-Paper1=GLM(title,abstract,keyword,venue,conference,author,org,ReleaseTime...),而最终的第一特征向量可以表示为EGLM-Person1+EGLM-Paper1
同理,根据上述备选文献的作者信息及文献信息,本实施例可以对第二候选文献建立第二特征向量,其可以表示为EGLM-Person2+EGLM-Paper2
进一步地,本实施例分别计算第二特征向量与每个第一特征向量之间的相似度分值,其计算过程可以表示为Score=Sk-Learn.Cosine_Similarity(EGLM-Person1+EGLm-Paper1,EGLM-Person2+EGLM-Paper2)。
S405:确定相似度分值满足设定规则的第二候选文献的作者信息,并将相似度分值不满足设定规则的第二候选文献作为目标文献。
其中,设定规则例如可以是阈值规则。具体地,本实施例对每篇第二候选文献计算得到的多个相似度分值进行排序,然后根据排序选择最大相似度分值。进一步地,将最大相似度分值与设定阈值进行比较,如果最大相似度分值大于第一设定阈值,则将最大相似度分值对应的备选文献的作者信息作为第二候选文献的作者信息。而不满足设定规则的第二候选文献则作为目标文献。也即是说,本实施例将无法通过专家库匹配和无法进行相似度分类的文献作为目标文献,进一步地可以对目标文献进行聚类处理,以确定作者信息。
从而,本公开实施例还可以采用备选集对第二候选文献进行消歧处理,进一步减小后续聚类运算的数据量。
一些实施例中,在确定目标文献后,还可以判断目标文献的数量是否大于第二设定阈值,在大于第二设定阈值的情况下,表示目标文献的数量可以进行聚类,然后进行候选的特征提取与聚类操作。
S406:采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵。
S407:根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵。
S408:基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
S406-S408的描述可以具体参见上述实施例,在此不再赘述。
一些实施例,在确定第一候选文献的作者信息后,还可以对结果进行检查验证,以将错误的分类、聚类结果以及数据集本身已存在的错误消歧排除掉,避免因为错误的情况影响下一次的姓名消歧。
其中,本实施例例如可以采用规则的方式对结果进行检查,例如:根据作者寿命周期(100年)对结果进行检查,如果待消歧文献的发布期限超出最终确定的作者寿命期限,则表示消歧结果存在问题。此外,还可以采用其它任意可能的方式对结果进行检查,对此不作限制。并且,本实施例还可以根据检查结果对专家库、备选集进行修正。
另一些实施例,对于本实施例无法消歧的论文,还可以采用人工的方式进行作者信息标注,并且可以将标注后的信息更新至专家库、备选集等。
本实施例中,通过获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。此外,本实施例可以依次采用专家库匹配、分类算法以及聚类算法对待消歧文献进行消歧,其中专家库匹配、分类算法可以简单快速的进行消歧,并减少后续聚类的运算量。
在一个具体实例中,图6是根据本公开实施例提供的文献作者信息消歧过程示意图,如图6所示,包括以下步骤:
输入一篇论文paper
步骤1:验证paper的正确性
确保paper的字段完整,将一些错误格式的paper去掉。例如没有author、author名明显错误、字段严重缺失等。
步骤2:将论文输入论文作者姓名消歧模型PaperND(即,上述实施例提供的文献作者信息消歧方法)
根据当前作者的唯一标识信息如email、orcid等和专家库中的专家的相应字段进行匹配,如果匹配成功,则将该论文分配给该专家,否则将对论文进行备选集构建,备选集构建成功则进行分类算法计算得出消歧结果,否则将进行表征相似度计算,然后对其进行加权融合,最后将融合后的结果进行聚类,得到消歧结果。
步骤3消歧结果检查
通过对消歧之后的作者进行检查,通过一些简单的规则和一些机器学习的方法对专家的论文进行错误分析。
步骤4未分配author进行人工标注
一些因为信息缺少等原因聚类得分低于阈值,则需要通过人工的干预进行标注,标注后的结果将直接影响消歧的备选集选取。如果论文在等待人工标注队列过长,会自动回到步骤2重新执行。
为了实现上述实施例,本公开还提出一种文献作者信息消歧装置。
图7是根据本公开另一实施例提供的文献作者信息消歧装置的示意图。
如图7所示,该文献作者信息消歧装置70,包括:
获取模块701,用于获取多篇待消歧的目标文献;
计算模块702,用于采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;
融合模块703,用于根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵;以及
聚类模块704,用于基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息。
一些实施例中,计算模块702,具体用于:
计算多篇待消歧的目标文献在浅层语义信息下的相似度矩阵;和/或
计算多篇待消歧的目标文献在中层语义信息下的相似度矩阵;和/或
计算多篇待消歧的目标文献在深层语义信息下的相似度矩阵;和/或
计算多篇待消歧的目标文献在文献作者、文献组织、文献标题结构关系信息下的相似度矩阵;和/或
计算多篇待消歧的目标文献在多种文献标签信息下的相似度矩阵。
一些实施例中,获取模块701,包括:
获取子模块,用于获取多篇待消歧的第一候选文献;
匹配子模块,用于将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配;以及
确定子模块,用于确定匹配成功的第一候选文献的作者信息和未匹配成功的多篇第二候选文献,并从多篇第二候选文献中获取目标文献。
一些实施例中,确定子模块,具体用于:
计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值;以及
确定相似度分值满足设定规则的第二候选文献的作者信息,并将相似度分值不满足设定规则的第二候选文献作为目标文献。
一些实施例中,确定子模块,具体用于:
根据每篇备选文献的作者信息及文献信息建立第一特征向量;
根据第二候选文献的作者信息及文献信息建立第二特征向量;以及
分别计算第二特征向量与每个第一特征向量之间的相似度分值。
一些实施例中,确定子模块,具体用于:
对每篇第二候选文献计算得到的多个相似度分值进行排序,确定最大相似度分值;以及
在最大相似度分值大于第一设定阈值的情况下,将最大相似度分值对应的备选文献的作者信息作为第二候选文献的作者信息。
一些实施例中,装置还包括:处理模块,用于采用预先构建的英文姓名规则对第一候选文献的作者姓名进行归一化处理。
一些实施例中,装置还包括:验证模块,用于对每篇目标文献对应的作者信息进行验证。
本实施例中,通过获取多篇待消歧的目标文献,并采用预设算法,计算多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,并根据预设的权重参数对多个相似度矩阵进行融合,得到融合矩阵,以及基于融合矩阵进行聚类得到多个聚类簇,并根据多个聚类簇对应的作者信息确定每篇目标文献对应的作者信息,能够深入提取目标文献的多种特征,并综合多种特性的相似度进行聚类分析,因此可以提高作者信息的准确性,从而提升文献作者信息消歧效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
为了实现上述实施例,本公开还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行如本公开前述实施例提出的文献作者信息消歧方法。
图8示出了适于用来实现本公开实施方式的示例性电子设备的框图。图8显示的电子设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。
尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用,例如实现前述实施例中提及的文献作者信息消歧方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
需要说明的是,在本公开的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文献作者信息消歧方法,其特征在于,包括:
获取多篇待消歧的目标文献;
采用预设算法,计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;
根据预设的权重参数对所述多个相似度矩阵进行融合,得到融合矩阵;以及
基于所述融合矩阵进行聚类得到多个聚类簇,并根据所述多个聚类簇对应的作者信息确定每篇所述目标文献对应的作者信息。
2.如权利要求1所述的方法,其特征在于,所述计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵,包括:
计算所述多篇待消歧的目标文献在浅层语义信息下的相似度矩阵;和/或
计算所述多篇待消歧的目标文献在中层语义信息下的相似度矩阵;和/或
计算所述多篇待消歧的目标文献在深层语义信息下的相似度矩阵;和/或
计算所述多篇待消歧的目标文献在文献作者、文献组织、文献标题结构关系信息下的相似度矩阵;和/或
计算所述多篇待消歧的目标文献在多种文献标签信息下的相似度矩阵。
3.如权利要求1所述的方法,其特征在于,所述获取多篇待消歧的目标文献,包括:
获取多篇待消歧的第一候选文献;
将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配;以及
确定匹配成功的第一候选文献的作者信息和未匹配成功的多篇第二候选文献,并从所述多篇第二候选文献中获取所述目标文献。
4.如权利要求3所述的方法,其特征在于,所述从所述多篇第二候选文献中获取所述目标文献,包括:
计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值;以及
确定相似度分值满足设定规则的第二候选文献的作者信息,并将相似度分值不满足设定规则的第二候选文献作为所述目标文献。
5.如权利要求4所述的方法,其特征在于,所述计算每篇第二候选文献与对应的目标文献库中多篇备选文献的多个相似度分值,包括:
根据每篇所述备选文献的作者信息及文献信息建立第一特征向量;
根据所述第二候选文献的作者信息及文献信息建立第二特征向量;以及
分别计算所述第二特征向量与每个第一特征向量之间的相似度分值。
6.如权利要求4所述的方法,其特征在于,所述确定相似度分值满足设定规则的第二候选文献的作者信息,包括:
对每篇第二候选文献计算得到的多个相似度分值进行排序,确定最大相似度分值;以及
在所述最大相似度分值大于第一设定阈值的情况下,将所述最大相似度分值对应的备选文献的作者信息作为所述第二候选文献的作者信息。
7.如权利要求3所述的方法,其特征在于,在所述第一候选文献为英文文献的情况下,所述将每篇第一候选文献的作者唯一标识信息与预先构建的文献作者库中作者信息进行匹配之前,还包括:
采用预先构建的英文姓名规则对所述第一候选文献的作者姓名进行归一化处理。
8.如权利要求1所述的方法,其特征在于,所述采用预设算法,计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵之前,还包括:
判断所述目标文献的数量是否大于第二设定阈值。
9.一种文献作者信息消歧装置,其特征在于,
获取模块,用于获取多篇待消歧的目标文献;
计算模块,用于采用预设算法,计算所述多篇待消歧的目标文献在多种特征信息下的多个相似度矩阵;
融合模块,用于根据预设的权重参数对所述多个相似度矩阵进行融合,得到融合矩阵;以及
聚类模块,用于基于所述融合矩阵进行聚类得到多个聚类簇,并根据所述多个聚类簇对应的作者信息确定每篇所述目标文献对应的作者信息。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
CN202210611373.7A 2022-05-31 2022-05-31 文献作者信息消歧方法、装置及电子设备 Pending CN114969387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210611373.7A CN114969387A (zh) 2022-05-31 2022-05-31 文献作者信息消歧方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210611373.7A CN114969387A (zh) 2022-05-31 2022-05-31 文献作者信息消歧方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114969387A true CN114969387A (zh) 2022-08-30

Family

ID=82958498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210611373.7A Pending CN114969387A (zh) 2022-05-31 2022-05-31 文献作者信息消歧方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114969387A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117610541A (zh) * 2024-01-17 2024-02-27 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质
CN117610541B (zh) * 2024-01-17 2024-06-11 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117312565B (zh) * 2023-11-28 2024-02-06 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117610541A (zh) * 2024-01-17 2024-02-27 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质
CN117610541B (zh) * 2024-01-17 2024-06-11 之江实验室 大规模数据的作者消歧方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US10089581B2 (en) Data driven classification and data quality checking system
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
CN111158641B (zh) 基于语义分析和文本挖掘的事务类功能点自动识别方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111222330B (zh) 一种中文事件的检测方法和系统
CN110543920B (zh) 图像识别模型的性能检测方法、装置、服务器及存储介质
US20170004414A1 (en) Data driven classification and data quality checking method
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN115577698A (zh) 一种基于机器学习的数据和文本处理系统及其方法
CN117454884B (zh) 历史人物信息纠错方法、系统、电子设备和存储介质
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination