CN111581949A - 学者人名的消歧方法、装置、存储介质及终端 - Google Patents

学者人名的消歧方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN111581949A
CN111581949A CN202010397847.3A CN202010397847A CN111581949A CN 111581949 A CN111581949 A CN 111581949A CN 202010397847 A CN202010397847 A CN 202010397847A CN 111581949 A CN111581949 A CN 111581949A
Authority
CN
China
Prior art keywords
thesis
paper
feature vector
name
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397847.3A
Other languages
English (en)
Other versions
CN111581949B (zh
Inventor
田欣
孙虎
孙沛基
殷玥
耿树文
朱悦
王茜
王杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co ltd
Shanghai R&d Public Service Platform Management Center
Original Assignee
Shanghai Science And Technology Development Co ltd
Shanghai R&d Public Service Platform Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co ltd, Shanghai R&d Public Service Platform Management Center filed Critical Shanghai Science And Technology Development Co ltd
Priority to CN202010397847.3A priority Critical patent/CN111581949B/zh
Publication of CN111581949A publication Critical patent/CN111581949A/zh
Application granted granted Critical
Publication of CN111581949B publication Critical patent/CN111581949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供学者人名的消歧方法、装置、存储介质及终端。所述方法包括获取待消歧人名的论文数据集;利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。本发明充分利用论文信息,采用特征学习、特征融合、聚类分析等技术来实现科技文献的学者人名消歧,提高了相关评测得分和科技文献作者库检索的准确性,有助于构建一个以学者实体为核心的文献知识库。

Description

学者人名的消歧方法、装置、存储介质及终端
技术领域
本发明涉及实体消歧领域,特别是涉及学者人名的消歧方法、装置、存储介质及终端。
背景技术
近年来,随着互联网的发展,人们获取各种各样的资讯越来越便利。然而,面对海量的信息,如何有效筛选有用的内容也成为了一大难题。其中,由于人名存在的歧义性导致的搜索结果不能达到预期效果占了较大比重。因此,如何快捷准确地区分人物实体,在信息检索、信息抽取、语义知识库构建等领域具有重要意义。
对于科学研究领域的工作者而言,网络海量科技文献知识库为科技工作者提供了便捷的文献检索和学习研究服务。但是,大量的学者同名现象也降低了检索的准确性。因此,学者人名的消歧也成为了该领域亟需解决的一个问题。科技文献的学者人名消歧(NameDisambiguation)一直被视为一个具有挑战性的问题,影响着如科学文献管理、人物搜索、社交网络分析等方面,与此同时,随着科学文献的大量增长,该问题的解决变得愈加困难与紧迫。因此,探索更好的知识库的实体消歧问题的解决方案在科研领域,尤其是在信息检索、机器阅读、知识问答、知识图谱等领域都具有重要的应用价值。针对现有的学术文献知识库存在的学者重名问题,进行学者人名的消歧工作,是构建一个以学者实体为核心的文献知识库的重要环节。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供学者人名的消歧方法、装置、存储介质及终端,用于解决现有技术中学者人名的消歧方法评测得分较低、算法实现复杂度较高、程序运行效率低、在大数据情况下无法高效运行的问题。
为实现上述目的及其他相关目的,本发明的第一方面提供一种学者人名的消歧方法,包括:获取待消歧人名的论文数据集;利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
于本发明的第一方面的一些实施例中,所述方法还包括:对所述离群论文集进行聚类,并将该聚类结果与所述聚类论文集整合,以获得学者人名的消歧结果。
于本发明的第一方面的一些实施例中,所述利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量,具体包括:构建论文数据集的论文异质网络,以获取论文关系特征;对论文数据集的论文文本进行预处理,以获取论文语义特征;利用所述论文关系特征和论文语义特征分别训练词向量模型,以获取所述论文关系特征向量和论文语义特征向量。
于本发明的第一方面的一些实施例中,所述论文异质网络的类型包括:以论文为节点;节点之间通过论文的共同信息构建关联关系;所述共同信息包括共同作者或/和存在共词的待消歧人名所属机构;其中,节点之间通过共同作者构建的关联关系为第一关联关系,所述第一关联关系的关联度和共同作者的数目呈正向变化;节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系,所述第二关联关系的关联度和所述所属机构的共词的数目呈正向变化。
于本发明的第一方面的一些实施例中,所述论文关系特征的获取步骤包括:在所述论文异质网络中选择一个节点作为初始节点;基于所述节点之间的关联关系,由所述初始节点游走至第二节点,获得元路径;基于所述元路径的类型,逐步迭代至预设的节点数量,获得长路径;循环获取预设数量的所述长路径,并组成路径集,以作为所述论文关系特征。
于本发明的第一方面的一些实施例中,所述方法还包括:当所述论文数据集中的论文所有词都不存在于词向量模型中时,将该论文保存于离群论文集以进行二次聚类。
于本发明的第一方面的一些实施例中,所述论文语义特征向量的获取方式包括:利用逆文档频率进行加权计算,获取论文语义特征向量。
为实现上述目的及其他相关目的,本发明的第二方面提供一种学者人名的消歧装置,包括:论文数据集获取模块,获取待消歧人名的论文数据集;特征向量获取模块,利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;特征融合模块,分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;聚类模块,基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
为实现上述目的及其他相关目的,本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述学者人名的消歧方法。
为实现上述目的及其他相关目的,本发明的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述学者人名的消歧方法。
如上所述,本发明提出的学者人名的消歧方法、装置、存储介质及终端,具有以下有益效果:充分利用论文的信息,利用特征学习、特征融合和聚类分析等手段,解决了现有技术中学者人名消歧方法评测得分较低、算法实现复杂度较高、程序运行效率低和在大数据情况下无法高效运行的问题。
附图说明
图1显示为本发明一实施例中学者人名的消歧方法流程示意图。
图2显示为本发明一实施例中多次聚类的学者人名消歧方法流程示意图。
图3显示为本发明一实施例中学者人名的消歧装置结构示意图。
图4显示为本发明一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提出学者人名的消歧方法、装置、存储介质及终端,解决了现有技术中学者人名消歧方法评测得分较低、算法实现复杂度较高、程序运行效率低、在大数据情况下无法高效运行的问题。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
实施例一
图1所示为本发明一实施例的学者人名的消歧方法流程示意图,包括步骤:
步骤S11.获取待消歧人名的论文数据集。可选的,利用分组统计的方法获取所述论文数据集,并且将每个待消歧人名对应的论文整理成一个二级字典数据格式;采用hive本地模式获取论文和待消歧人名之间的关系数据;采用生成器分块读取论文数据,将每篇论文转化为字典格式,以及将一些字段分割成列表,并存储入数据库。优选的,本实施例选用轻量级内存映射数据库(Lightning Memory-Mapped Database,LMDB)。LMDB数据库存储结构采用key-value方式存储,其数据结构为字节数组,具有以下优点:文件结构简单,一个文件夹里面包含一个数据文件和一个锁文件;数据可以随意复制和随意传输;访问简单,不需要运行单独的数据库管理进程,只要在访问数据的代码里引用LMDB数据库,访问时给文件路径即可;支持多进程、多线程读写。
步骤S12.利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量。所述词向量模型包括word2vec模型、glove模型、ELMo模型、BERT模型等。所述word2vec模型又包括Continuous Bag-of-Words和Skip-Gram两种模型。其中,Skip-Gram模型用中心词来预测周围的词,输入是特定的一个词的词向量,输出是特定词对应的上下文词向量,词向量更加准确,适用于大型数据库。因此,优选Skip-Gram模型作为本实施例的词向量模型。
本实施例较佳实施方式中,步骤S12又包括如下步骤:
步骤S121.构建论文数据集的论文异质网络,以获取论文关系特征。
本实施例较佳实施方式中,所述论文异质网络的类型包括:以论文为节点;节点之间通过论文的共同信息构建关联关系;所述共同信息包括共同作者或/和存在共词的待消歧人名所属机构;其中,节点之间通过共同作者构建的关联关系为第一关联关系,所述第一关联关系的关联度和共同作者的数目呈正向变化,即所述第一关联关系的关联度随所述共同作者的数目的增多而增强,并随着所述共同作者的数目的较少而变弱;节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系,所述第二关联关系的关联度和所述所属机构的共词的数目呈正向变化,即所述第二关联关系的关联度随着所述所属机构的共词的数目的增多而增强,并随着所述所属机构的共词的数目的减少而变弱。
也可表述为,所述论文异质网络的类型包括:基于共同作者构建的异质网络;基于存在共词的待消歧人名所属机构构建的异质网络;基于共同作者和存在共词的待消歧人名所属机构构建的异质网络。
以基于共同作者和存在共词的待消歧人名所属机构构建的异质网络为例。抽取每一个待消歧的人名对应的所有论文之间的关系,构建出一个论文异质网络。该论文异质网络包含:一种类型的节点(论文,每篇论文表示一个节点)和两种类型的边(CoAuthor和CoOrg)。其中,CoAuthor表示两篇论文之间存在共同作者(不包含需要消歧的名字),边上的度与共同作者的数目正相关。如果两篇论文之间有共同作者,则以两篇论文为节点在两者之间构建一条关系名为CoAuthor的边,该边具有共同作者数目的属性(如果有1位共同作者,该边上的度可设为1,表示这个关系的权重为1;如果有两位共同作者,该边上的度可设为2,表示这个关系的权重为2,以此类推)。CoOrg表示两篇论文对应的待消歧人名所属机构的相似性关系,边上的度表示两个机构共词的数量,如果两篇论文对应的待消歧人名所属机构包含相同的词,且这个词不是停用词,则以两篇论文为节点在两者之间构建一条关系名为CoOrg的边,该边具有共词数目的属性(如果有一个共词,该边上的度可设为1,表示这个关系的权重为1;如果有两个共词,该边上的度可设为2,表示这个关系的权重为2,以此类推)。
本实施例较佳实施方式中,所述论文关系特征的获取步骤包括:在所述论文异质网络中选择一个节点作为初始节点;基于所述节点之间的关联关系,由所述初始节点游走至第二节点,获得元路径;基于所述元路径的类型,逐步迭代至预设的节点数量,获得长路径;循环获取预设数量的所述长路径,并组成路径集,以作为所述论文关系特征。
以基于共同作者和存在共词的待消歧人名所属机构构建的异质网络为例。在所述论文异质网络中轮流选择每一节点,以该节点为初始节点,在节点之间的边上随机游走(所述随机游走并不是完全随机的,而是由元路径指导的);在每一次随机游走过程中,按照当前元路径规定的边的类型选择下一个节点,重复采样若干次这样的元路径(每一条元路径的最后一个节点作为下一条元路径的第一个节点),迭代至预设的次数,生成长路径;另选一个节点作为初始节点,重复上述步骤,获取预设数量的长路径;将每条长路径按行存储,组成所述路径集,即训练语料库。优选的,设置长路径的数目为5,每条长路径的迭代次数为20,可以获得较优的人名消歧效率和消歧精度。
步骤S122.对论文数据集的论文文本进行预处理,以获取论文语义特征。所述论文文本的预处理包括使用正则表达式匹配、nltk词形还原、去除停止词、去除各种噪声符号以及噪声词语等方法。
优选的,提取论文的关键词,题目,摘要、发表时间等字段进行预处理操作。上述字段较集中反应了论文的主要语义特征。
步骤S123.利用所述论文关系特征和论文语义特征分别训练词向量模型,以获取所述论文关系特征向量和论文语义特征向量。
可选的,利用Skip-Gram模型训练上述的路径集,即训练语料库。Skip-Gram模型本质上是一个神经网络模型,包括输入层、投影层和输出层三层网络结构。该模型选取优化目标为以下对数似然函数:
Figure BDA0002488236910000061
其中,Context(w)表示给定样本,w表示给定样本的中心词,C表示中心词的集合,p(Context(w)w)表示条件概率。可选的,Skip-Gram模型采用随机梯度下降法来迭代网络,得到文本词到向量空间的映射,即所述论文关系特征向量。
本实施例较佳实施方式中,利用上述预处理后获取的论文语义特征训练词向量模型,并利用逆文档频率IDF进行加权计算,获取论文语义特征向量。采用逆文档频率IDF进行加权,可以突出论文的关键词,从而让一篇论文的语义特征向量更能表示出该论文的信息。逆文档频率IDF的计算公式如下:
Figure BDA0002488236910000062
其中,如果一个词越常见,那么分母就越大,逆文档频率IDF就越小;分母加1是为了避免分母为0(即所有文档都不包含该词);log表示对得到的值取对数。
步骤S13.分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵。
相似度的表示方法包括:闵可夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离、余弦相似度、皮尔逊相关系数、马氏距离、杰卡德相似系数等。优选的,采用基于余弦相似度的方法计算所述论文关系特征向量和论文语义特征向量的相似度矩阵。余弦相似度适用于数据是稀疏的文档相似性的计算。
可选的,所述特征融合的方法包括:将所述论文关系特征向量和论文语义特征向量的相似度矩阵加权相加求均值,获得论文的特征融合矩阵。优选的,所述论文关系特征向量和论文语义特征向量的相似度矩阵的权值比设置为1:1。所述权值比为根据训练的结果得出的最优解。
步骤S14.基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
可选的,对所述特征融合矩阵进行聚类的方法包括层次聚类、密度聚类、谱聚类等。优选的,采用密度聚类算法DBSCAN。密度聚类算法DBSCAN无需定义类的数量,可以识别出局外点和噪声点、并且可以对任意形状的数据进行聚类。
具体的,当将DBSCAN聚类模型的参数min_samples设置为N,即设置一个簇中最少的论文个数为N,会产生一部分已经划分好的论文簇和许多label为-1的离群点,这些离群点不属于任何簇。将label为-1的论文集中,获得离群论文集。排除所述离群论文集中的论文,将其它论文的聚类结果作为最终的聚类结果,可获得聚类论文集。所述聚类论文集和离群论文集不相交。
本实施例较佳实施方式中,所述方法还包括:对所述离群论文集进行聚类,并将该聚类结果与所述聚类论文集整合,以获得学者人名的消歧结果。可选的,采用Tanimoto系数计算不同论文的匹配相似度,定义文本相似度匹配阈值模型,将所述离群论文集里的论文用阈值匹配的方法重新分配给已经聚类好的簇或者新的簇中。Tanimoto系数的计算公式表示如下:
Figure BDA0002488236910000071
其中,A和B分别表示不同论文中的一段文本序列,A∩B表示A文本序列和B文本序列的交集,A∪B表示A文本序列和B文本序列的并集。
本实施例较佳实施方式中,当所述论文数据集中的论文所有词都不存在于词向量模型中时,将该论文保存于离群论文集以进行二次聚类。
图2所示为本实施例多次聚类的学者人名消歧方法流程示意图。首先,待消歧人名“a”的所有论文首先进行数据预处理,例如将每篇论文转化为字典数据格式、将一些字段分割成列表等,获得论文数据集;分别将论文数据集进行论文关系特征提取(包括建立论文异质网络,基于元路径的随机游走获取路径集)和论文语义特征提取(获取文本集);采用所述路径集训练Wor2vec模型,采用所述文本集对预训练的Wor2vec模型进行训练(通过对训练集、测试集和验证集进行数据预处理,获取文本语料集,利用文本语料集对Wor2vec模型预训练),分别获得论文关系特征向量和论文文本特征向量(将所有词都不存在于Wor2vec模型中的论文加入离散论文集);然后计算获取论文关系相似性矩阵和论文文本相似性矩阵;进一步特征融合处理,获取论文相似性矩阵;对论文相似性矩阵进行DBSCAN聚类,获取预聚类论文集和离群论文集;将离群论文集中的论文按相似性阈值匹配二次聚类,并与预聚类论文集整合,获得最终消歧结果。
综上所述,本实施例提供的学者人名的消歧方法,充分利用了论文的信息,包括论文关系特征和论文语义特征,采用特征学习、特征融合和聚类分析等技术来实现科技文献的学者人名消歧,提高了科技文献作者库检索的准确性,有助于构建一个以学者实体为核心的文献知识库。
实施例二
本实施例提供一种学者人名的消歧装置,如图3所示,包括:论文数据集获取模块31,获取待消歧人名的论文数据集;特征向量获取模块32,利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;特征融合模块33,分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;聚类模块34,基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
需要说明的是,本实施例提供的模块与上文中提供的方法,实施方式类似,故不再赘述。另外需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,聚类模块34可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上聚类模块34的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
实施例三
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述学者人名的消歧方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例四
图4所示为本发明实施例提供的一种电子终端的结构示意图。本实例提供的电子终端,包括:处理器41、存储器42、通信器43;存储器42通过系统总线与处理器41和通信器43连接并完成相互间的通信,存储器42用于存储计算机程序,通信器43用于和其他设备进行通信,处理器41用于运行计算机程序,使电子终端执行如上学者人名的消歧方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供的学者人名的消歧方法、装置、存储介质及终端,解决了现有技术中人名消歧准确率低、学者知识库管理效率低下的问题,充分利用论文信息,采用特征学习、特征融合、聚类分析等技术来实现科技文献的学者人名消歧,提高了相关评测得分,从而让科技文献作者库检索更加准确,更加有助于构建一个以学者实体为核心的文献知识库。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种学者人名的消歧方法,其特征在于,包括:
获取待消歧人名的论文数据集;
利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;
分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;
基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述离群论文集进行聚类,并将该聚类结果与所述聚类论文集整合,以获得学者人名的消歧结果。
3.根据权利要求1所述的方法,其特征在于,所述利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量,具体包括:
构建论文数据集的论文异质网络,以获取论文关系特征;
对论文数据集的论文文本进行预处理,以获取论文语义特征;
利用所述论文关系特征和论文语义特征分别训练词向量模型,以获取所述论文关系特征向量和论文语义特征向量。
4.根据权利要求3所述的方法,其特征在于,所述论文异质网络的类型包括:
以论文为节点;
节点之间通过论文的共同信息构建关联关系;所述共同信息包括共同作者或/和存在共词的待消歧人名所属机构;
其中,节点之间通过共同作者构建的关联关系为第一关联关系,所述第一关联关系的关联度和共同作者的数目呈正向变化;节点之间通过存在共词的待消歧人名所属机构构建的关联关系为第二关联关系,所述第二关联关系的关联度和所述所属机构的共词的数目呈正向变化。
5.根据权利要求4所述的方法,其特征在于,所述论文关系特征的获取步骤包括:
在所述论文异质网络中选择一个节点作为初始节点;
基于所述节点之间的关联关系,由所述初始节点游走至第二节点,获得元路径;
基于所述元路径的类型,逐步迭代至预设的节点数量,获得长路径;
循环获取预设数量的所述长路径,并组成路径集,以作为所述论文关系特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述论文数据集中的论文所有词都不存在于词向量模型中时,将该论文保存于离群论文集以进行二次聚类。
7.根据权利要求1所述的方法,其特征在于,所述论文语义特征向量的获取方式包括:利用逆文档频率进行加权计算,获取论文语义特征向量。
8.一种学者人名的消歧装置,其特征在于,包括:
论文数据集获取模块,获取待消歧人名的论文数据集;
特征向量获取模块,利用词向量模型获取所述论文数据集的论文关系特征向量和论文语义特征向量;
特征融合模块,分别计算所述论文关系特征向量和论文语义特征向量的相似度矩阵,并进行特征融合,以获取特征融合矩阵;
聚类模块,基于所述特征融合矩阵进行聚类,以获取聚类论文集和离群论文集。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的学者人名的消歧方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述的学者人名的消歧方法。
CN202010397847.3A 2020-05-12 2020-05-12 学者人名的消歧方法、装置、存储介质及终端 Active CN111581949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397847.3A CN111581949B (zh) 2020-05-12 2020-05-12 学者人名的消歧方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397847.3A CN111581949B (zh) 2020-05-12 2020-05-12 学者人名的消歧方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN111581949A true CN111581949A (zh) 2020-08-25
CN111581949B CN111581949B (zh) 2023-03-21

Family

ID=72124863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397847.3A Active CN111581949B (zh) 2020-05-12 2020-05-12 学者人名的消歧方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN111581949B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112528089A (zh) * 2020-12-04 2021-03-19 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备
CN112597305A (zh) * 2020-12-22 2021-04-02 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112613310A (zh) * 2021-01-04 2021-04-06 成都颜创启新信息技术有限公司 一种人名匹配方法、装置、电子设备及存储介质
CN113051397A (zh) * 2021-03-10 2021-06-29 北京工业大学 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065623A1 (en) * 2006-09-08 2008-03-13 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080065623A1 (en) * 2006-09-08 2008-03-13 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓可君等: "基于机器学习的论文作者名消歧方法研究", 《四川大学学报(自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN112256874B (zh) * 2020-10-21 2023-08-08 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112256874A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 模型训练方法、文本分类方法、装置、计算机设备和介质
CN112434134A (zh) * 2020-12-04 2021-03-02 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112528089A (zh) * 2020-12-04 2021-03-19 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备
CN112528089B (zh) * 2020-12-04 2023-11-14 平安科技(深圳)有限公司 论文作者消歧的方法、装置和计算机设备
CN112434134B (zh) * 2020-12-04 2023-10-20 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
WO2022116324A1 (zh) * 2020-12-04 2022-06-09 中国科学院深圳先进技术研究院 搜索模型训练方法、装置、终端设备及存储介质
CN112597305B (zh) * 2020-12-22 2023-09-01 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112597305A (zh) * 2020-12-22 2021-04-02 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112613310A (zh) * 2021-01-04 2021-04-06 成都颜创启新信息技术有限公司 一种人名匹配方法、装置、电子设备及存储介质
CN113051397A (zh) * 2021-03-10 2021-06-29 北京工业大学 一种基于异质信息网络表示学习和词向量表示的学术论文同名排歧方法
CN117312565A (zh) * 2023-11-28 2023-12-29 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法
CN117312565B (zh) * 2023-11-28 2024-02-06 山东科技大学 一种基于关系融合与表示学习的文献作者姓名消歧方法

Also Published As

Publication number Publication date
CN111581949B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN111581949B (zh) 学者人名的消歧方法、装置、存储介质及终端
Wang et al. K-adapter: Infusing knowledge into pre-trained models with adapters
Akimushkin et al. Text authorship identified using the dynamics of word co-occurrence networks
Salter-Townshend et al. Review of statistical network analysis: models, algorithms, and software
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、系统、装置
Liu et al. Text features extraction based on TF-IDF associating semantic
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
US11113470B2 (en) Preserving and processing ambiguity in natural language
Bleik et al. Text categorization of biomedical data sets using graph kernels and a controlled vocabulary
Vysotska et al. Development of Information System for Textual Content Categorizing Based on Ontology.
Merlini et al. Text categorization with WEKA: A survey
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
Hussein Visualizing document similarity using n-grams and latent semantic analysis
US10073890B1 (en) Systems and methods for patent reference comparison in a combined semantical-probabilistic algorithm
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN116306504B (zh) 候选实体生成方法、装置、存储介质及电子设备
Song et al. Multiple order semantic relation extraction
Pinto et al. What Drives Research Efforts? Find Scientific Claims that Count!
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及系统
CN113111178B (zh) 无监督的基于表示学习的同名作者消歧方法及装置
CN112215006B (zh) 机构命名实体归一化方法和系统
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant