CN110990524A

CN110990524A - 基于可靠信息库的学术成果机构命名排歧方法及装置

Info

Publication number: CN110990524A
Application number: CN201911017874.7A
Authority: CN
Inventors: 唐杰; 邵洲; 袁莎; 刘德兵
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-04-10

Abstract

本发明公开了一种基于可靠信息库的学术成果机构命名排歧方法及装置，其中，该方法包括：从学术成果文本中提取机构相关信息，并获取机构字符串；按照特殊字符对机构字符串进行分割，并对分割后的字符串部分实体命名识别，将属于实体命名的存入疑似机构队列；对疑似机构队列进行地理位置信息映射，得到机构地理位置信息；根据可靠机构数据集进行多类名称相似度计算，得到疑似机构实体序列和对应的最高相似名称相似度值；对疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。该方法能够简单快速准确地实现学术成果中机构的命名排歧，并实现机构名称的标准化。

Description

基于可靠信息库的学术成果机构命名排歧方法及装置

技术领域

本发明涉及信息检索技术领域，特别涉及一种基于可靠信息库的学术成果机构命名排歧方法及装置。

背景技术

学术成果中的机构实体信息文本较短，易出现表达歧义等问题，可靠外部信息库，能够为短文本提供足够的对照信息，这为实现学术成果中机构的命名排歧提供了可能。基于可靠机构信息库的机构命名排歧，可以应用到多种应用中，例如无歧义机构实体信息库的构建，机构合作网络分析等。

机构名称在特定的时间和空间范围内有一定的排他性，但在超出特定时间和空间的范围内呈现出较强的歧义性。机构名称的命名排歧是地址命名排歧的一个细分类别，基于可靠信息库的地址命名排歧方法已经得到了较多人的关注，例如，Buscaldi等人在借助WordNet的地理参考版本的基础上对基于知识的方法和基于地图的方法进行了比较，结果表明，相对而言基于知识的方法可以在较小的上下文下获得更好的结果；Hu等介绍了借助维基百科的语义网版本DBpedia，通过其提供的结构化的和机器可理解的知识，来消除短文中地名歧义的方法，该方法的准确性和通用性较强；Machado等引入了一个名叫OntoGazetteer本体论地名词典来辅助文本地名消歧，该方法能够很容易地推导出地理和拓扑关系。这些方法需要建立复杂的工具系统，整体复杂度较高，实施起来难度较大。此外，在解决学术成果中学者机构命名排歧上准确度相对偏低。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于可靠信息库的学术成果机构命名排歧方法，该方法能够简单快速准确地实现学术成果中机构的命名排歧，并实现机构名称的标准化。

本发明的另一个目的在于提出一种基于可靠信息库的学术成果机构命名排歧装置。

为达到上述目的，本发明一方面实施例提出了基于可靠信息库的学术成果机构命名排歧方法，包括以下步骤：从学术成果文本中提取机构相关信息，并获取机构字符串；按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。

本发明实施例的基于可靠信息库的学术成果机构命名排歧方法，在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧，能够简单快速准确地解决学术成果中机构的命名排歧，并实现机构名称的标准化。

另外，根据本发明上述实施例的基于可靠信息库的学术成果机构命名排歧方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，基于特殊符号对机构字符串进行文本分割，采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。

可选地，在本发明的一个实施例中，所述对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列，包括：判断所述分割后的字符串部分是否属于命名实体；若属于，则属于命名实体的部分保存并存入所述疑似机构队列；若不属于，则不属于命名实体的部分丢弃。

可选地，在本发明的一个实施例中，所述对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息，包括：采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除；若返回映射结果，则对所述映射结果和所述机构文本进行计算，得到所述机构地理位置信息；若未返回映射结果，则将所述机构文本删除。

进一步地，在本发明的一个实施例中，所述根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值，包括：根据所述可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入所述疑似机构实体序列中，最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。

为达到上述目的，本发明另一方面实施例提出了基于可靠信息库的学术成果机构命名排歧装置，包括：提取模块，用于从学术成果文本中提取机构相关信息，并获取机构字符串；识别模块，用于按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；映射模块，用于对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；计算模块，用于根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；筛选模块，用于对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。

本发明实施例的基于可靠信息库的学术成果机构命名排歧装置，在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧，能够简单快速准确地解决学术成果中机构的命名排歧，并实现机构名称的标准化。

另外，根据本发明上述实施例的基于可靠信息库的学术成果机构命名排歧装置，还可以具有以下附加的技术特征：

可选地，在本发明的一个实施例中，所述识别模块包括：判断所述分割后的字符串部分是否属于命名实体；若属于，则属于命名实体的部分保存并存入所述疑似机构队列；若不属于，则不属于命名实体的部分丢弃。

可选地，在本发明的一个实施例中，所述映射模块包括：采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除；若返回映射结果，则对所述映射结果和所述机构文本进行计算，得到所述机构地理位置信息；若未返回映射结果，则将所述机构文本删除。

进一步地，在本发明的一个实施例中，所述计算模块包括：根据所述可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入所述疑似机构实体序列中，最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于可靠信息库的学术成果机构命名排歧方法流程图；

图2为根据本发明一个实施例中文本信息分割及命名实体识别的流程图；

图3为根据本发明一个实施例中疑似机构队列地理位置信息映射的流程图；

图4为根据本发明一个实施例中基于可靠机构数据集O的文本相似度查询方法的流程图；

图5为根据本发明一个实施例中基于可靠机构库的相似度比对算法的流程图；

图6为根据本发明一个实施例的基于可靠信息库的学术成果机构命名排歧装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法及装置，首先将参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法。

首先，本发明实施例需要解决的问题进行说明和形式化定义：可靠机构信息库是指基于百科、可靠机构介绍等可信度较高的信息源结构化文本库。输入是一个学术成果文本p，其对应机构字符串为a₁,...,a_n，可靠的机构库为O，O中包含机构的标准名称、别名、曾用名、简称、机构所在地、机构网址等结构化的信息，O的构建可以通过结构化百科数据等完成。最后，根据方法返回源于可靠机构库O的机构完整实体信息r。

如图1所示，基于可靠信息库的学术成果机构命名排歧方法是建立在完整的可靠机构信息库O上的，整个计算在一个框架流程下进行。

如图1所示，该基于可靠信息库的学术成果机构命名排歧方法包括以下步骤：

在步骤S1中，从学术成果文本中提取机构相关信息，并获取机构字符串。

具体而言，在可靠机构信息库O中输入一个学术成果的文本p，从学术成果的文本p中提取机构相关的信息，通过对文本进行处理获得机构字符串，为a₁,...,a_n。

在步骤S2中，按照特殊字符对机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列。

进一步地，在本发明的一个实施例中，基于特殊符号对机构字符串进行文本分割，采用自然语言处理工具对分割后的字符串部分进行实体命名识别。

可选地，在本发明的一个实施例中，对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列，包括：判断分割后的字符串部分是否属于命名实体；若属于，则属于命名实体的部分保存并存入疑似机构队列；若不属于，则不属于命名实体的部分丢弃。

也就是说，根据机构字符串a₁,...,a_n的结构信息按照特殊字符对a₁,...,a_n进行分割，并对分割的字符串部分进行命名实体的识别，属于命名实体的部分保留并存入疑似机构队列S中，不属于命名实体的部分丢弃。

在步骤S3中，对疑似机构队列进行地理位置信息映射，得到机构地理位置信息。

进一步地，在本发明的一个实施例中，对疑似机构队列进行地理位置信息映射，得到机构地理位置信息，包括：采用多地图API对疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从疑似机构队列中删除；若返回映射结果，则对映射结果和机构文本进行计算，得到机构地理位置信息；若未返回映射结果，则将机构文本删除。

也就是说，对疑似机构队列S中的信息进行多地图API下的地理位置信息映射，对于不能映射获得地理位置信息的疑似机构从疑似机构队列S中删除，返回结构化了的包含地理位置信息的集合G。

在步骤S4中，根据可靠机构数据集进行多类名称相似度计算，得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值。

进一步地，在本发明的一个实施例中，基于可靠机构数据集的文本相似度查询方法，根据可靠机构数据集进行多类名称相似度计算，得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值，包括：根据可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入疑似机构实体序列中，最终返回可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。

也就是说，根据可靠机构数据集O中的标准名称、别名、曾用名、简称等进行多类名称相似度的计算，计算得到可靠机构库O中的疑似机构实体序列B及对应的最高名称相似度值C。

在步骤S5中，对疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。

下面以学术论文为例，详细介绍如何通过基于可靠信息库的学术成果机构命名排斥方法来实现对论文文本p中的机构字符串a₁,...,a_n进行命名排歧的。

步骤1：机构信息提取

若论文文本p是结构化的文本，则只需要对该结构化文本的各个部分进行类型的识别即可，若论文文本p是非结构化的文本，则需要使用常规的常用技术和方法对p进行信息的抽取，如模式匹配、正则表达式等方法。最终，生成机构信息a₁,...,a_n。机构本文如：“Division of Applied Sciences and Department of Physics,Harvard University,Cambridge,MA 02138,U.S.A.”。

步骤2：文本信息分割及命名实体识别

如图2所示，对步骤1中提取出来的机构文本进行文本信息的分割和命名实体的识别，对于机构文本中的属于命名实体的部分保留并存入疑似机构队列S中，不属于命名实体的部分丢弃。其中，文本的分割主要基于特殊字符，如分号，冒号等；命名实体的识别主要采用一般的自然语言处理工具如NLTK、Stanford NLP等。

步骤3：疑似机构队列S地理位置信息映射

如图3所示，在步骤2的基础上，采用多地图API，对疑似机构队列S中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将其从疑似机构队列S中删除，最终返回结构化了的包含地理位置信息的集合G。其中，相似结果的分组主要根据不同API中返回的结果进行两两距离计算，根据计算结果，将距离1公里以内的结果分为一类，选择结果数目较多的类，计算该类中的中心位置，最后计算出来的中心点为最后的地理位置信息，其集合为G。

可以理解的是，多地图API一般包括，高德地图API，谷歌地图API，百度地图API，必应地图API等。

步骤4：基于可靠机构数据集O的文本相似度查询方法

如图4所示，根据可靠机构数据集O中的标准名称、别名、曾用名、简称等进行多类名称相似度的计算，并根据相似度计算的结果的不同类型，判断是否将其加入到疑似机构实体序列B中，最终返回可靠机构库O中的疑似机构实体序列B及对应的最高名称相似度值C。如果B的结果为空，则继续进行字符串的拼写检查再进行多类名称的相似度计算。

其中，相似度计算采用John W Ratcliff等提出来的一种序列的文本相似度方法gestalt相似度算法，字符串的拼写检查采用Burkhard等人提出来的Burkhard-Keller树方法。ɑ、β和θ均为相似度的阈值，一般情况下ɑ、β和θ的值设为0.8、0.85和0.85。简称完全命中要求字符串完全匹配，其相似度值默认为1。

步骤5：基于可靠机构库的相似度比对算法

如图5所示，根据步骤4的结果，对疑似机构实体序列B中的结果进行地址抽取及地理位置信息映射，并通过计算与G地理上的距离和最高名称相似度值C的最终相似度值筛选出最佳结果。

其中，疑似机构实体序列B的地址抽取及地理位置信息映射的方法如步骤2中所述，实现疑似机构实体集合与G进行距离计算是将经纬度坐标的差距转化为二维空间的距离，该距离序列为D，该距离值所对应的名称相似度序列为C，则对于疑似机构实体序列B的一个候选机构b，对应的距离为d，名称相似度的最高值为c，则b与G中任意一个元素g的相似度值Sim(b,g)为：

Sim(b,g)＝0.8×c+0.2×w

式中，w为距离为d的计算值，当d<0.8公里的时候w＝1，当0.8≤d<1.5的时候w＝0.3，d≥1.5的时候w＝0。

最后，依据相似度值Sim(b,g)中的最大值，返回最佳的结果r。返回的r就是可靠机构库中的已经结构化好的机构实体。

根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法，在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧。试验表明，在AMiner数据集上该算法的准确率高于现有方法6.8％左右，同时规范化命名机构实体比例提升40％以上，能够简单快速准确地解决学术成果中机构的命名排歧，并实现机构名称的标准化。

其次参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧装置。

图6是本发明一个实施例的基于可靠信息库的学术成果机构命名排歧装置结构示意图。

如图6所示，该装置10包括：提取模块100、识别模块200、映射模块300、计算模块400和筛选模块500。

其中，提取模块100用于从学术成果文本中提取机构相关信息，并获取机构字符串。识别模块200用于按照特殊字符对机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列。映射模块300用于对疑似机构队列进行地理位置信息映射，得到机构地理位置信息。计算模块400用于根据可靠机构数据集进行多类名称相似度计算，得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值。筛选模块500用于对疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。本发明实施例的学术成果机构命名排歧装置10能够简单快速准确地实现学术成果中机构的命名排歧，并实现机构名称的标准化。

可选地，在本发明的一个实施例中，识别模块200包括：判断分割后的字符串部分是否属于命名实体；若属于，则属于命名实体的部分保存并存入疑似机构队列；若不属于，则不属于命名实体的部分丢弃。

可选地，在本发明的一个实施例中，映射模块300包括：采用多地图API对疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从疑似机构队列中删除；若返回映射结果，则对映射结果和机构文本进行计算，得到机构地理位置信息；若未返回映射结果，则将机构文本删除。

进一步地，在本发明的一个实施例中，计算模块400包括：根据可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入疑似机构实体序列中，最终返回可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。

根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧装置，在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧，能够简单快速准确地解决学术成果中机构的命名排歧，并实现机构名称的标准化。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于可靠信息库的学术成果机构命名排歧方法，其特征在于，包括以下步骤：

从学术成果文本中提取机构相关信息，并获取机构字符串；

按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；

对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；

根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；以及

对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。

2.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，基于特殊符号对机构字符串进行文本分割，采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。

3.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列，包括：

判断所述分割后的字符串部分是否属于命名实体；

若属于，则属于命名实体的部分保存并存入所述疑似机构队列；

若不属于，则不属于命名实体的部分丢弃。

4.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息，包括：

采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除；

若返回映射结果，则对所述映射结果和所述机构文本进行计算，得到所述机构地理位置信息；

若未返回映射结果，则将所述机构文本删除。

5.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值，包括：

根据所述可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入所述疑似机构实体序列中，最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。

6.一种基于可靠信息库的学术成果机构命名排歧装置，其特征在于，包括：

提取模块，用于从学术成果文本中提取机构相关信息，并获取机构字符串；

识别模块，用于按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；

映射模块，用于对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；

计算模块，用于根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；以及

筛选模块，用于对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。

7.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置，其特征在于，基于特殊符号对机构字符串进行文本分割，采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。

8.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置，其特征在于，所述识别模块包括：

判断所述分割后的字符串部分是否属于命名实体；

若不属于，则不属于命名实体的部分丢弃。

9.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置，其特征在于，所述映射模块包括：

若未返回映射结果，则将所述机构文本删除。

10.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置，其特征在于，所述计算模块包括：