CN110851669A

CN110851669A - 基于地理位置信息的机构命名排歧方法及装置

Info

Publication number: CN110851669A
Application number: CN201910987453.0A
Authority: CN
Inventors: 唐杰; 邵洲; 袁莎; 刘德兵
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-28

Abstract

本发明公开了一种基于地理位置信息的机构命名排歧方法及装置，其中，该方法包括：对输入文本信息抽取生成机构信息集合，对输入文本信息挖掘生成具有地理位置指向性的信息，并结构化为地理位置指向性信息集合；根据机构信息集合、地理位置指向性信息集合和多地图API，将机构信息集合中的每个机构映射为不同的地理位置，将映射结果进行结构化生成结构化机构信息集合；根据相似度算法对结构化机构信息集合进行相似度计算，根据计算结果生成机构相似度矩阵；根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构，根据判断结果进行机构命名排歧，输出排歧结果。该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

Description

基于地理位置信息的机构命名排歧方法及装置

技术领域

本发明涉及信息检索技术领域，特别涉及一种基于地理位置信息的机构命名排歧方法及装置。

背景技术

机构实体具有歧义性，尤其是学术成果数据中，对机构实体进行指代消解和实体消歧是实现对学者归属、学术成果归属操作等的核心，也是进行科研大数据分析的基础。可以应用到多种应用中，基于学术成果的机构竞争合作分析、基于科技大数据的机构科研能力评估和排名等。机构的命名排歧主要解决由于机构合并、机构重名、机构改名、机构简称、表达不规范等一系列原因造成的指代歧义，在学术成果中的机构名称更是具有文本内容短、表达复杂等特点。已有的机构命名排歧方法主要为基于字符串相似度匹配算法，忽略了其机构表达原始文本中的一些特性，没有充分挖掘其可能的隐藏信息，因此准确率不高。

尽管机构的命名排歧问题作为地点的命名排歧的一个子类较早就被人们研究过，例如2006年，Poulique等人尝试对多语言的文本进行地理位置信息编码，实现地理位置的识别、消歧和可视化，并提供了一个完成这些功能的工具；2008年，Overell等人提出共现模型来解决地点命名排歧问题，该方法通过地点名称的共现来解决，从方法性上来讲简单易操作；Ju等人将实体共现和话题模型结合起来以实现短文本中地址名称命名排歧准确率的提升；Buscaldi等人提出了基于WordNet概念密度的方法来实现地址的命名排歧，该方法在小上下文(短语级别)上精度高，而在大的上下文(文档级别)可以获得更大的覆盖率。由于没有考虑到学术成果中文本信息的特殊性这些方法复杂度较高，在解决学术成果中学者机构命名排歧上准确度相对较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于地理位置信息的机构命名排歧方法，该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

本发明的另一个目的在于提出一种基于地理位置信息的机构命名排歧装置。

为达到上述目的，本发明一方面实施例提出了一种基于地理位置信息的机构命名排歧方法，包括：

S1，获取输入文本信息，对所述输入文本信息进行抽取生成机构信息集合，对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息，将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合；

S2，根据所述机构信息集合、所述地理位置指向性信息集合和多地图API，将所述机构信息集合中的每个机构映射为不同的地理位置，将映射的结果进行结构化生成结构化机构信息集合；

S3，根据相似度算法对所述结构化机构信息集合进行相似度计算，根据计算结果生成机构相似度矩阵；

S4，根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构，根据判断结果进行机构命名排歧，并输出排歧结果。

本发明实施例的基于地理位置信息的机构命名排歧方法，通过对输入文本信息进行机构抽取及指向性信息挖掘，并进行地理位置信息映射及结构化，结合相似度算法进行相似度计算，最后根据计算的相似度值进行命名排歧，能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

另外，根据本发明上述实施例的基于地理位置信息的机构命名排歧方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述S2进一步包括：

根据所述机构信息集合和所述地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果；

根据不同地图API的映射结果进行两两距离计算，根据距离计算结果和预设距离将映射结果进行分类，根据分类结果确定每个机构的地理位置信息，将所述机构信息集合、所述地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成所述结构化机构信息集合。

进一步地，在本发明的一个实施例中，所述S3进一步包括：

根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值，根据所述地理位置指向性信息集合计算每个机构地理位置间的距离值；

根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值；

根据所述机构相似度值生成所述机构相似度矩阵。

进一步地，在本发明的一个实施例中，所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为：

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，

d为所述距离值，g₁和g₂为所述结构化机构信息集合中的元素。

进一步地，在本发明的一个实施例中，所述S4进一步包括：

根据所述机构相似度矩阵和相似度阈值进行判断，将所述机构相似度矩阵中的所述机构相似度值大于所述相似度阈值的归为相似机构数组，判断不同的相似机构数组之间是否有重叠，若有，则增大所述相似度阈值再进行判断，若没有，则结束，输出排歧结果。

为达到上述目的，本发明另一方面实施例提出了一种基于地理位置信息的机构命名排歧装置，包括：

处理模块，用于获取输入文本信息，对所述输入文本信息进行抽取生成机构信息集合，对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息，将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合；

映射模块，用于根据所述机构信息集合、所述地理位置指向性信息集合和多地图API，将所述机构信息集合中的每个机构映射为不同的地理位置，将映射的结果进行结构化生成结构化机构信息集合；

计算模块，用于根据相似度算法对所述结构化机构信息集合进行相似度计算，根据计算结果生成机构相似度矩阵；

输出模块，用于根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构，根据判断结果进行机构命名排歧，并输出排歧结果。

本发明实施例的基于地理位置信息的机构命名排歧装置，通过对输入文本信息进行机构抽取及指向性信息挖掘，并进行地理位置信息映射及结构化，结合相似度算法进行相似度计算，最后根据计算的相似度值进行命名排歧，能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

另外，根据本发明上述实施例的基于地理位置信息的机构命名排歧装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述映射模块，具体用于，

进一步地，在本发明的一个实施例中，所述计算模块，具体用于，

根据所述机构相似度值生成所述机构相似度矩阵。

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，

进一步地，在本发明的一个实施例中，所述输出模块，具体用于，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于地理位置信息的机构命名排歧方法流程图；

图2为根据本发明一个实施例的地理位置信息映射及结构化流程图；

图3根据本发明一个实施例的基于地理位置信息的机构相似度算法示意图；

图4为根据本发明一个实施例的基于机构相似度矩阵的命名排歧分析方法流程图；

图5为根据本发明又一个实施例的基于地理位置信息的机构命名排歧方法流程图；

图6为根据本发明一个实施例的基于地理位置信息的机构命名排歧装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧方法及装置。

首先将参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧方法。

图1为根据本发明一个实施例的基于地理位置信息的机构命名排歧方法流程图。

如图1所示，该基于地理位置信息的机构命名排歧方法包括以下步骤：

步骤S1，获取输入文本信息，对输入文本信息进行抽取生成机构信息集合，对输入文本信息进行挖掘生成机构信息集合中的每个机构对应的具有地理位置指向性的信息，将具有地理位置指向性的信息结构化为地理位置指向性信息集合。

需要说明的是，在本发明的实施例中，定义输入文本集合为P，其中，包含的任意一个输入文本信息为p，输入文本信息对应的机构字符串为a₁,...,a_n，机构所在文本中对应的具有地理指向性的隐含信息集合分别为o₁,...,o_n，机构命名排歧的结果为R。

具体地，对于论文集合P中的任意一篇论文p，若p是结构化的文本，则只需要对该结构化文本的各个部分进行类型的识别即可，若p是非结构化的文本，则需要使用常规的常用技术和方法对p进行信息的抽取，如模式匹配、正则表达式等方法。最终，生成机构信息a₁,...,a_n。

对p中相关的隐含信息进行挖掘，例如，论文所使用到的语言、邮编信息、地址信息等，生成对应的集合o₁,...,o_n。

步骤S2，根据机构信息集合、地理位置指向性信息集合和多地图API，将机构信息集合中的每个机构映射为不同的地理位置，将映射的结果进行结构化生成结构化机构信息集合。

进一步地，S2进一步包括：

根据机构信息集合和地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果；

根据不同地图API的映射结果进行两两距离计算，根据距离计算结果和预设距离将映射结果进行分类，根据分类结果确定每个机构的地理位置信息，将机构信息集合、地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成结构化机构信息集合。

具体地，结合a₁,...,a_n和对应的o₁,...,o_n采用多地图API，进行地理位置信息的映射。这里的多地图API一般包括，谷歌地图API，百度地图API，必应地图API等。其具体流程如图2所示。

其中，结构化的结果为结构化机构信息集合g₁,...,g_n，该数据中包含a₁,...,a_n和对应的o₁,...,o_n及地理位置信息映射结果。地理位置信息判断主要根据不同API中返回的结果进行两两距离计算，根据计算结果，将距离1公里以内的结果分为一类，选择结果数目较多的类，计算中心点为最后的地理位置信息。

步骤S3，根据相似度算法对结构化机构信息集合进行相似度计算，根据计算结果生成机构相似度矩阵。

进一步地，在本发明的一个实施例中，S3进一步包括：

根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值，根据地理位置指向性信息集合计算每个机构地理位置间的距离值；

根据相似度值和距离值计算结构化机构信息集合中任意两个元素的机构相似度值；

根据机构相似度值生成机构相似度矩阵。

可以理解的是，结合机构的文本信息和地理位置信息，对步骤S2中g₁,...,g_n进行相似度的计算，将其结果保存为机构相似度矩阵S。

具体地，步骤S2中的结果g₁,...,g_n，以机构化的信息队列的形式输入到基于地理位置信息的机构相似度算法中，计算机构之间的机构相似度矩阵S。算法的具体流程如图3所示。

gestalt相似度算法是一种序列的文本相似度方法，能够很好地计算序列文本之间的相似性，具有较高的可用性。地理位置间的距离值计算采用将经纬度转换为二维空间距离的方法进行计算。

排歧计算模块主要根据相似度值和距离值计算任意两个g(如g₁和g₂)之间的机构相似度值Sim(g₁,g₂)，将文本相似度值记为w₁，距离值记为d，其计算公式为:

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，一般分别为0.5和0.5。这里w₂的计算公式为：

最终输出机构之间的相似度矩阵S。

步骤S4，根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构，根据判断结果进行机构命名排歧，并输出排歧结果。

进一步地，在本发明的一个实施例中，S4进一步包括：

根据机构相似度矩阵和相似度阈值进行判断，将机构相似度矩阵中的机构相似度值大于相似度阈值的归为相似机构数组，判断不同的相似机构数组之间是否有重叠，若有，则增大相似度阈值再进行判断，若没有，则结束，输出排歧结果。

可以理解的是，根据步骤S3输出的机构相似度矩阵S，根据不同机构之间的相似度值分析不同机构之间的是否属于同一机构。具体流程如图4所示。

其中，机构相似度值Sim大于一定的阈值的时候，认为机构是相似机构，比较每个g的机构相似度值Sim，将相似机构归为一组，如果不同组的机构有重合则增加相似度阈值，再次判断。这里，相似度阈值一般初始化设置为0.5，每次增加0.1。直到最终没有重复，则结束。

判断完成后，在基于机构相似度矩阵分析的基础上，将机构命名排歧的结果R进行输出，其中R为二维数组，该二维数组中的每一行为同一机构的不同表示，不同行之间为不同的机构。如：[[Tsinghua University,THU,Tsinghua Univ.,清华,清华大学],[PekingUniverisity,PKU,北大,北京大学,Peking Univ.]]中，[Tsinghua University,THU,Tsinghua Univ.,清华,清华大学]为同一机构，与[Peking Univerisity,PKU,北大,北京大学,Peking Univ.]属于不同机构。

如图5所示，展示了本发明实施例的流程框图，通过对文本p进行机构抽取及指向性信息挖掘，对机构和指向性信息进行地理位置映射及结构化，再进行基于地理位置信息的机构相似度算法生成机构相似度矩阵，基于机构相似度矩阵进行命名排歧，最后输出排歧结果。通过上述结合地理位置信息并充分利用其所在文本指向性信息的机构命名排歧算法，能够辅助实现快速准确地实现不同机构之间的命名排歧，准确率高于现有方法的20％以上。

根据本发明实施例提出的基于地理位置信息的机构命名排歧方法，通过对输入文本信息进行机构抽取及指向性信息挖掘，并进行地理位置信息映射及结构化，结合相似度算法进行相似度计算，最后根据计算的相似度值进行命名排歧，能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

其次参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧装置。

如图6所示，该基于地理位置信息的机构命名排歧装置包括：处理模块100、映射模块200、计算模块300和输出模块400。

其中，处理模块100，用于获取输入文本信息，对输入文本信息进行抽取生成机构信息集合，对输入文本信息进行挖掘生成机构信息集合中的每个机构对应的具有地理位置指向性的信息，将具有地理位置指向性的信息结构化为地理位置指向性信息集合。

映射模块200，用于根据机构信息集合、地理位置指向性信息集合和多地图API，将机构信息集合中的每个机构映射为不同的地理位置，将映射的结果进行结构化生成结构化机构信息集合。

计算模块300，用于根据相似度算法对结构化机构信息集合进行相似度计算，根据计算结果生成机构相似度矩阵。

输出模块400，用于根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构，根据判断结果进行机构命名排歧，并输出排歧结果。

该装置10能够辅助实现快速准确地实现不同机构之间的命名排歧。

进一步地，在本发明的一个实施例中，映射模块，具体用于，

进一步地，在本发明的一个实施例中，计算模块，具体用于，

根据机构相似度值生成机构相似度矩阵。

进一步地，在本发明的一个实施例中，根据相似度值和距离值计算结构化机构信息集合中任意两个元素的机构相似度值的公式为：

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，

d为距离值，g₁和g₂为结构化机构信息集合中的元素。

进一步地，在本发明的一个实施例中，输出模块，具体用于，

需要说明的是，前述对基于地理位置信息的机构命名排歧方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于地理位置信息的机构命名排歧装置，通过对输入文本信息进行机构抽取及指向性信息挖掘，并进行地理位置信息映射及结构化，结合相似度算法进行相似度计算，最后根据计算的相似度值进行命名排歧，能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于地理位置信息的机构命名排歧方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于地理位置信息的机构命名排歧方法，其特征在于，所述S2进一步包括：

3.根据权利要求1所述的基于地理位置信息的机构命名排歧方法，其特征在于，所述S3进一步包括：

根据所述机构相似度值生成所述机构相似度矩阵。

4.根据权利要求4所述的基于地理位置信息的机构命名排歧方法，其特征在于，所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为：

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，

5.根据权利要求1所述的基于地理位置信息的机构命名排歧方法，其特征在于，所述S4进一步包括：

6.一种基于地理位置信息的机构命名排歧装置，其特征在于，包括：

7.根据权利要求6所述的基于地理位置信息的机构命名排歧装置，其特征在于，所述映射模块，具体用于，

8.根据权利要求6所述的基于地理位置信息的机构命名排歧装置，其特征在于，所述计算模块，具体用于，

根据所述机构相似度值生成所述机构相似度矩阵。

9.根据权利要求6所述的基于地理位置信息的机构命名排歧装置，其特征在于，所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为：

Sim(g₁,g₂)＝α×w₁+β×w₂

其中，α和β为文本相似度值w₁和距离相似度值w₂的权重，

10.根据权利要求6所述的基于地理位置信息的机构命名排歧装置，其特征在于，所述输出模块，具体用于，