CN111259166B

CN111259166B - 基于知识图谱的科研实体链接方法及装置

Info

Publication number: CN111259166B
Application number: CN202010074094.2A
Authority: CN
Inventors: 唐杰; 邵洲; 刘德兵
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-02-03
Anticipated expiration: 2040-01-22
Also published as: CN111259166A

Abstract

本发明公开了一种基于知识图谱的科研实体链接方法及装置，其中，该方法包括：获取隶属信息集合，对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串；将字符串进行分割，生成词集合，对词集合中每个词通过知识图谱的模糊查询进行匹配，找到每个词可能表达的实体集合，将实体集合作为候选集加入候选集合中；通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果；将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出。该方法利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体。

Description

基于知识图谱的科研实体链接方法及装置

技术领域

本发明涉及信息检索技术领域，特别涉及一种基于知识图谱的科研实体链接方法及装置。

背景技术

科研成果中学者的隶属(即affiliation)展现了科研机构参与该科研创新的情况。但是该表示方式存在着歧义性和模糊性，如果将科研成果中的学者的隶属映射到现实社会中的科研实体上，则能够很好的避免其带来的歧义性和模糊性。

科研成果中科研实体是以学者的隶属所存在的，即现实世界中所指的科研机构。由于一系列的原因导致该表达存在着较大的歧义性和模糊性。主要的影响因素有：英文名翻译方法的不同、机构合并与更名、拼写错误、顶级机构与下级本门难以区分、不同的书写方式、印刷错误或OCR错误、机构简写、翻译错误、信息的遗漏、机构同名等。单从语义、语法等角度很难消除其歧义性和模糊性。

该问题很早就引起了大家的重视，主要采用基于规则的方法和基于知识的方法来实现。基于规则的方法中，代表性的工作有：Jonnalagadda等人提出的基于多字典的多层规则匹配、Jiang等人提出的一种基于标准化压缩距离的聚类方法、Huang等人提出了一种基于规则的算法等。基于知识的方法中，代表性的工作有：Aumueller等人提出基于网络搜索结果url的从属关系的相似性判断方法、Morillo等人提出了一种新的半自动方法编码方法、

等人使用Nooj进行机构标准化的方法等。传统基于规则或者基于知识的方法，很容易受限于预定义好的知识和框架，在数据量不断增长、时间跨度很长、数据量较大等真实环境下效果较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于知识图谱的科研实体链接方法，该方法利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体。

本发明的另一个目的在于提出一种基于知识图谱的科研实体链接装置。

为达到上述目的，本发明一方面实施例提出了一种基于知识图谱的科研实体链接方法，包括：

S1，获取隶属信息集合，对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串；

S2，将所述字符串进行分割，生成词集合，对所述词集合中每个词通过知识图谱的模糊查询进行匹配，找到每个词可能表达的实体集合，将所述实体集合作为候选集加入候选集合中；

S3，通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果；

S4，将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出。

本发明实施例的基于知识图谱的科研实体链接方法，通过利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体，可以应用到多种应用中，例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

另外，根据本发明上述实施例的基于知识图谱的科研实体链接方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述S1进一步包括：

通过正则化表达式去除所述隶属信息集合中的无关信息，以及根据字符串中字符所对应的字符编码的区间判断是否为乱码，将乱码移除。

进一步地，在本发明的一个实施例中，使用基于词的n-gram模型对所述字符串进行多重分割。

进一步地，在本发明的一个实施例中，所述S2进一步包括：

通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配，找到每个词可能表达的实体集合G，表示为：h(w)＝G＝I+P，其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合。

进一步地，在本发明的一个实施例中，所述候选集实体选择模型为：

其中，函数cls()表示最长公共子序列算法，med()函数表示最小编辑距离算法，科研成果中学者的隶属a去除标点符号后表示为a'，候选集合C中的元素c去除标点符号后表示为c'。

为达到上述目的，本发明另一方面实施例提出了一种基于知识图谱的科研实体链接装置，包括：

处理模块，用于获取隶属信息集合，对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串；

分割模块，用于将所述字符串进行分割，生成词集合，对所述词集合中每个词通过知识图谱的模糊查询进行匹配，找到每个词可能表达的实体集合，将所述实体集合作为候选集加入候选集合中；

生成模块，用于通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果；

实体链接模块，用于将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出

本发明实施例的基于知识图谱的科研实体链接装置，通过利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体，可以应用到多种应用中，例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

另外，根据本发明上述实施例的基于知识图谱的科研实体链接装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述处理模块，进一步用于通过正则化表达式去除所述隶属信息集合中的无关信息，以及根据字符串中字符所对应的字符编码的区间判断是否为乱码，将乱码移除。

进一步地，在本发明的一个实施例中，所述分割模块，进一步用于，通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配，找到每个词可能表达的实体集合G，表示为：h(w)＝G＝I+P，其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程图；

图2为根据本发明一个实施例的多重分割及基于知识图谱的模糊查询示例图；

图3为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程框图；

图4为根据本发明一个实施例的基于知识图谱的科研实体链接装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接方法及装置。

首先将参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接方法。

图1为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程图。

如图1所示，该基于知识图谱的科研实体链接方法包括以下步骤：

步骤S1，获取隶属信息集合，对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串。

在本发明的实施例中，需要解决的问题可以形式化定义为o＝argmaxP(c|a),c∈C。这里a∈A是科研成果中学者的隶属，o∈O是现实世界中的科研实体，c是a的候选集C中的元素，

在科研信息数据库的基础上获得隶属信息A，并对A中的每一个a进行简单的预处理进行数据的清洗和正则化。

具体地，以科研论文中的隶属信息为例，说明如何通过基于知识图谱的科研实体链接方法来将科研论文中的作者隶属信息映射到知识图谱上的。

使用正则表达式、地名和国家名库等方式将论文作者隶属中的表达邮箱信息、国家、邮编信息、州/省等无关信息去除，并根据字符串中字符所对应的字符编码的区间(如Unicode编码中中文的编码范围为4E00-9FBF)判断其是否属于乱码，同时将乱码移除。处理后，最终得到a处理之后的字符串s，这个过程本专利用一个函数来定义，表示为：s＝f₁(a)。其中f₁函数能够反向映射，即通过a找到原始的s。例如，邮箱抽取正则表达式表述为'\b[\w.-]+？@\w+？\.\w+？\b'和'\b[\w.-]+？@\w+？\.\w+？\b.\w+？\b'。

步骤S2，将字符串进行分割，生成词集合，对词集合中每个词通过知识图谱的模糊查询进行匹配，找到每个词可能表达的实体集合，将实体集合作为候选集加入候选集合中。

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成的巨大的语义网络图能够帮助本专利将科研成果中的实体和知识图谱中的实体链接起来。利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体。

使用基于词的n-gram模型对a进行多重分割，并通过知识图谱的模糊查询进行匹配，获得可能实体的知识图谱，然后将该知识图谱中可能的实体作为a的候选集加入到候选集合C中。

将s进行多重n-gram分割，一般选择的n-gram模型为n＝3。假设s中有m个词，其分割过程为：对其一次进行3词的n-gram分割、4个词的n-gram分割、……、m个词的n-gram分割，其分割过程如图2左边所示，生成的词的集合为W。这一过程，使用一个函数来定义，表示为W＝f₂(s)。

通过对W中每个w基于知识图谱中实体的模糊匹配，找到w可能表达的实体，其结果定义为G。该过程用一个函数来定义，表示为：h(w)＝G＝I+P。其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合，其过程如图2右边所示。

在本发明的实施例中，定义了基于知识图谱的多重分割候选集生成算法，其算法具体如下：

算法：基于知识图谱的多重分割候选集生成算法

其中，“Hyponymys”表示知识图谱中的下位词，“Instances”表示知识图谱中的实例。这里，得到了a对应的知识图谱中所有可能的实体候选集合C。

步骤S3，通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果。

从候选集合C中根据模型选择出a最可能的结果r。

对实体的名称进行统一大小写，去除标点符号之后a表示为a'，c表示为c'，其处理并不影响字符串的表达，那么可以通过求解r'＝argmaxP(c'|a'),c'∈C'中的r'来间接获得r＝argmaxP(c|a),c∈C中最可能的结果。

定义了如下的模型来进行计算：

其中，函数cls()表示最长公共子序列算法，主要使用动态规划的方法来实现，区别于最长公共子串，med()函数表示最小编辑距离算法。

利用上述模型计算出结果之后，可以根据f₁函数的反向映射性，将结果从r'映射到r。

即如下所示：

最终，获得a所对应的结果r。

步骤S4，将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出。

将模型计算出来的每一个最终结果r组成能够和隶属信息集合A一一对应的集合知识图谱实体集合R。输出隶属信息集合A所对应的知识图谱实体集合R。

本发明实施例的流程框图如图3所示，通过图3所示的过程，可以应用到多种应用中，例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

在本发明的一个具体实施例中，从科技大数据分析平台AMiner中随机抽取了100000篇论文，在借助大规模的中英文知识平衡的知识图谱XLore的帮助下，分别使用本专利的方法和传统方法中最先进的方法(简称为Huang方法)进行了实验。其实验结果如下：

在AMiner数据集上该算法的准确率提高了10％，召回率提高了67％。实验结果表明，不论是在准确率上，还是在召回率上都比传统的方法提高了很多，而且还可以获得知识图谱中科研实体对应的相关信息。

根据本发明实施例提出的基于知识图谱的科研实体链接方法，通过利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体，可以应用到多种应用中，例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

其次参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接装置。

如图4所示，该基于知识图谱的科研实体链接装置包括：处理模块100、分割模块200、生成模块300和实体链接模块400。

其中，处理模块100，用于获取隶属信息集合，对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串。

分割模块200，用于将字符串进行分割，生成词集合，对词集合中每个词通过知识图谱的模糊查询进行匹配，找到每个词可能表达的实体集合，将实体集合作为候选集加入候选集合中。

生成模块300，用于通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果。

实体链接模块400，用于将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出。

进一步地，在本发明的一个实施例中，处理模块，进一步用于通过正则化表达式去除隶属信息集合中的无关信息，以及根据字符串中字符所对应的字符编码的区间判断是否为乱码，将乱码移除。

进一步地，在本发明的一个实施例中，使用基于词的n-gram模型对字符串进行多重分割。

进一步地，在本发明的一个实施例中，分割模块，进一步用于，通过对词集合W中每个词w基于知识图谱中实体的模糊匹配，找到每个词可能表达的实体集合G，表示为：h(w)＝G＝I+P，其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合。

进一步地，在本发明的一个实施例中，候选集实体选择模型为：

需要说明的是，前述对基于知识图谱的科研实体链接方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于知识图谱的科研实体链接装置，通过利用多重分割的字符串相似性扩充科研实体的候选集，并通过一个相似度模型来匹配最可能的实体，可以应用到多种应用中，例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于知识图谱的科研实体链接方法，其特征在于，包括以下步骤：

S4，将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出；

其中，所述将所述字符串进行分割，生成词集合，包括：

使用基于词的n-gram模型对所述字符串进行多重分割；

在所述生成词集合之后，通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配，找到每个词可能表达的实体集合G，表示为：h(w)＝G＝I+P，其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合；

所述候选集合的生成包括：

将所述实例集合中实例对应的标签加入所述候选集合；

将所述概念集合中概念对应的标签加入所述候选集合；

将所述概念集合中概念所在实例对应的标签加入所述候选集合；

将所述概念集合中概念的下位词的标签加入所述候选集合。

2.根据权利要求1所述的基于知识图谱的科研实体链接方法，其特征在于，所述S1进一步包括：

3.根据权利要求1所述的基于知识图谱的科研实体链接方法，其特征在于，所述候选集实体选择模型为：

4.一种基于知识图谱的科研实体链接装置，其特征在于，包括：

实体链接模块，用于将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合，对知识图谱实体集合进行输出；

其中，所述分割模块，进一步用于，使用基于词的n-gram模型对所述字符串进行多重分割；

通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配，找到每个词可能表达的实体集合G，表示为：h(w)＝G＝I+P，其中，I表示知识图谱中的实例集合，P表示知识图谱中的概念集合；

以及，生成候选集合，包括：

将所述实例集合中实例对应的标签加入所述候选集合；

将所述概念集合中概念对应的标签加入所述候选集合；

将所述概念集合中概念的下位词的标签加入所述候选集合。

5.根据权利要求4所述的基于知识图谱的科研实体链接装置，其特征在于，所述处理模块，进一步用于通过正则化表达式去除所述隶属信息集合中的无关信息，以及根据字符串中字符所对应的字符编码的区间判断是否为乱码，将乱码移除。

6.根据权利要求4所述的基于知识图谱的科研实体链接装置，其特征在于，所述候选集实体选择模型为：