CN110851669A - 基于地理位置信息的机构命名排歧方法及装置 - Google Patents

基于地理位置信息的机构命名排歧方法及装置 Download PDF

Info

Publication number
CN110851669A
CN110851669A CN201910987453.0A CN201910987453A CN110851669A CN 110851669 A CN110851669 A CN 110851669A CN 201910987453 A CN201910987453 A CN 201910987453A CN 110851669 A CN110851669 A CN 110851669A
Authority
CN
China
Prior art keywords
similarity
information
information set
disambiguation
naming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910987453.0A
Other languages
English (en)
Inventor
唐杰
邵洲
袁莎
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910987453.0A priority Critical patent/CN110851669A/zh
Publication of CN110851669A publication Critical patent/CN110851669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于地理位置信息的机构命名排歧方法及装置,其中,该方法包括:对输入文本信息抽取生成机构信息集合,对输入文本信息挖掘生成具有地理位置指向性的信息,并结构化为地理位置指向性信息集合;根据机构信息集合、地理位置指向性信息集合和多地图API,将机构信息集合中的每个机构映射为不同的地理位置,将映射结果进行结构化生成结构化机构信息集合;根据相似度算法对结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,输出排歧结果。该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。

Description

基于地理位置信息的机构命名排歧方法及装置
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于地理位置信息的机构命名排歧方法及装置。
背景技术
机构实体具有歧义性,尤其是学术成果数据中,对机构实体进行指代消解和实体消歧是实现对学者归属、学术成果归属操作等的核心,也是进行科研大数据分析的基础。可以应用到多种应用中,基于学术成果的机构竞争合作分析、基于科技大数据的机构科研能力评估和排名等。机构的命名排歧主要解决由于机构合并、机构重名、机构改名、机构简称、表达不规范等一系列原因造成的指代歧义,在学术成果中的机构名称更是具有文本内容短、表达复杂等特点。已有的机构命名排歧方法主要为基于字符串相似度匹配算法,忽略了其机构表达原始文本中的一些特性,没有充分挖掘其可能的隐藏信息,因此准确率不高。
尽管机构的命名排歧问题作为地点的命名排歧的一个子类较早就被人们研究过,例如2006年,Poulique等人尝试对多语言的文本进行地理位置信息编码,实现地理位置的识别、消歧和可视化,并提供了一个完成这些功能的工具;2008年,Overell等人提出共现模型来解决地点命名排歧问题,该方法通过地点名称的共现来解决,从方法性上来讲简单易操作;Ju等人将实体共现和话题模型结合起来以实现短文本中地址名称命名排歧准确率的提升;Buscaldi等人提出了基于WordNet概念密度的方法来实现地址的命名排歧,该方法在小上下文(短语级别)上精度高,而在大的上下文(文档级别)可以获得更大的覆盖率。由于没有考虑到学术成果中文本信息的特殊性这些方法复杂度较高,在解决学术成果中学者机构命名排歧上准确度相对较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于地理位置信息的机构命名排歧方法,该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
本发明的另一个目的在于提出一种基于地理位置信息的机构命名排歧装置。
为达到上述目的,本发明一方面实施例提出了一种基于地理位置信息的机构命名排歧方法,包括:
S1,获取输入文本信息,对所述输入文本信息进行抽取生成机构信息集合,对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息,将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合;
S2,根据所述机构信息集合、所述地理位置指向性信息集合和多地图API,将所述机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合;
S3,根据相似度算法对所述结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;
S4,根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
本发明实施例的基于地理位置信息的机构命名排歧方法,通过对输入文本信息进行机构抽取及指向性信息挖掘,并进行地理位置信息映射及结构化,结合相似度算法进行相似度计算,最后根据计算的相似度值进行命名排歧,能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
另外,根据本发明上述实施例的基于地理位置信息的机构命名排歧方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述S2进一步包括:
根据所述机构信息集合和所述地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将所述机构信息集合、所述地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成所述结构化机构信息集合。
进一步地,在本发明的一个实施例中,所述S3进一步包括:
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据所述地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值;
根据所述机构相似度值生成所述机构相似度矩阵。
进一步地,在本发明的一个实施例中,所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,
Figure BDA0002237138720000031
d为所述距离值,g1和g2为所述结构化机构信息集合中的元素。
进一步地,在本发明的一个实施例中,所述S4进一步包括:
根据所述机构相似度矩阵和相似度阈值进行判断,将所述机构相似度矩阵中的所述机构相似度值大于所述相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大所述相似度阈值再进行判断,若没有,则结束,输出排歧结果。
为达到上述目的,本发明另一方面实施例提出了一种基于地理位置信息的机构命名排歧装置,包括:
处理模块,用于获取输入文本信息,对所述输入文本信息进行抽取生成机构信息集合,对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息,将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合;
映射模块,用于根据所述机构信息集合、所述地理位置指向性信息集合和多地图API,将所述机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合;
计算模块,用于根据相似度算法对所述结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;
输出模块,用于根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
本发明实施例的基于地理位置信息的机构命名排歧装置,通过对输入文本信息进行机构抽取及指向性信息挖掘,并进行地理位置信息映射及结构化,结合相似度算法进行相似度计算,最后根据计算的相似度值进行命名排歧,能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
另外,根据本发明上述实施例的基于地理位置信息的机构命名排歧装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述映射模块,具体用于,
根据所述机构信息集合和所述地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将所述机构信息集合、所述地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成所述结构化机构信息集合。
进一步地,在本发明的一个实施例中,所述计算模块,具体用于,
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据所述地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值;
根据所述机构相似度值生成所述机构相似度矩阵。
进一步地,在本发明的一个实施例中,所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,
Figure BDA0002237138720000041
d为所述距离值,g1和g2为所述结构化机构信息集合中的元素。
进一步地,在本发明的一个实施例中,所述输出模块,具体用于,
根据所述机构相似度矩阵和相似度阈值进行判断,将所述机构相似度矩阵中的所述机构相似度值大于所述相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大所述相似度阈值再进行判断,若没有,则结束,输出排歧结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于地理位置信息的机构命名排歧方法流程图;
图2为根据本发明一个实施例的地理位置信息映射及结构化流程图;
图3根据本发明一个实施例的基于地理位置信息的机构相似度算法示意图;
图4为根据本发明一个实施例的基于机构相似度矩阵的命名排歧分析方法流程图;
图5为根据本发明又一个实施例的基于地理位置信息的机构命名排歧方法流程图;
图6为根据本发明一个实施例的基于地理位置信息的机构命名排歧装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧方法及装置。
首先将参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧方法。
图1为根据本发明一个实施例的基于地理位置信息的机构命名排歧方法流程图。
如图1所示,该基于地理位置信息的机构命名排歧方法包括以下步骤:
步骤S1,获取输入文本信息,对输入文本信息进行抽取生成机构信息集合,对输入文本信息进行挖掘生成机构信息集合中的每个机构对应的具有地理位置指向性的信息,将具有地理位置指向性的信息结构化为地理位置指向性信息集合。
需要说明的是,在本发明的实施例中,定义输入文本集合为P,其中,包含的任意一个输入文本信息为p,输入文本信息对应的机构字符串为a1,...,an,机构所在文本中对应的具有地理指向性的隐含信息集合分别为o1,...,on,机构命名排歧的结果为R。
具体地,对于论文集合P中的任意一篇论文p,若p是结构化的文本,则只需要对该结构化文本的各个部分进行类型的识别即可,若p是非结构化的文本,则需要使用常规的常用技术和方法对p进行信息的抽取,如模式匹配、正则表达式等方法。最终,生成机构信息a1,...,an
对p中相关的隐含信息进行挖掘,例如,论文所使用到的语言、邮编信息、地址信息等,生成对应的集合o1,...,on
步骤S2,根据机构信息集合、地理位置指向性信息集合和多地图API,将机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合。
进一步地,S2进一步包括:
根据机构信息集合和地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将机构信息集合、地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成结构化机构信息集合。
具体地,结合a1,...,an和对应的o1,...,on采用多地图API,进行地理位置信息的映射。这里的多地图API一般包括,谷歌地图API,百度地图API,必应地图API等。其具体流程如图2所示。
其中,结构化的结果为结构化机构信息集合g1,...,gn,该数据中包含a1,...,an和对应的o1,...,on及地理位置信息映射结果。地理位置信息判断主要根据不同API中返回的结果进行两两距离计算,根据计算结果,将距离1公里以内的结果分为一类,选择结果数目较多的类,计算中心点为最后的地理位置信息。
步骤S3,根据相似度算法对结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵。
进一步地,在本发明的一个实施例中,S3进一步包括:
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据相似度值和距离值计算结构化机构信息集合中任意两个元素的机构相似度值;
根据机构相似度值生成机构相似度矩阵。
可以理解的是,结合机构的文本信息和地理位置信息,对步骤S2中g1,...,gn进行相似度的计算,将其结果保存为机构相似度矩阵S。
具体地,步骤S2中的结果g1,...,gn,以机构化的信息队列的形式输入到基于地理位置信息的机构相似度算法中,计算机构之间的机构相似度矩阵S。算法的具体流程如图3所示。
gestalt相似度算法是一种序列的文本相似度方法,能够很好地计算序列文本之间的相似性,具有较高的可用性。地理位置间的距离值计算采用将经纬度转换为二维空间距离的方法进行计算。
排歧计算模块主要根据相似度值和距离值计算任意两个g(如g1和g2)之间的机构相似度值Sim(g1,g2),将文本相似度值记为w1,距离值记为d,其计算公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,一般分别为0.5和0.5。这里w2的计算公式为:
Figure BDA0002237138720000061
最终输出机构之间的相似度矩阵S。
步骤S4,根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
进一步地,在本发明的一个实施例中,S4进一步包括:
根据机构相似度矩阵和相似度阈值进行判断,将机构相似度矩阵中的机构相似度值大于相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大相似度阈值再进行判断,若没有,则结束,输出排歧结果。
可以理解的是,根据步骤S3输出的机构相似度矩阵S,根据不同机构之间的相似度值分析不同机构之间的是否属于同一机构。具体流程如图4所示。
其中,机构相似度值Sim大于一定的阈值的时候,认为机构是相似机构,比较每个g的机构相似度值Sim,将相似机构归为一组,如果不同组的机构有重合则增加相似度阈值,再次判断。这里,相似度阈值一般初始化设置为0.5,每次增加0.1。直到最终没有重复,则结束。
判断完成后,在基于机构相似度矩阵分析的基础上,将机构命名排歧的结果R进行输出,其中R为二维数组,该二维数组中的每一行为同一机构的不同表示,不同行之间为不同的机构。如:[[Tsinghua University,THU,Tsinghua Univ.,清华,清华大学],[PekingUniverisity,PKU,北大,北京大学,Peking Univ.]]中,[Tsinghua University,THU,Tsinghua Univ.,清华,清华大学]为同一机构,与[Peking Univerisity,PKU,北大,北京大学,Peking Univ.]属于不同机构。
如图5所示,展示了本发明实施例的流程框图,通过对文本p进行机构抽取及指向性信息挖掘,对机构和指向性信息进行地理位置映射及结构化,再进行基于地理位置信息的机构相似度算法生成机构相似度矩阵,基于机构相似度矩阵进行命名排歧,最后输出排歧结果。通过上述结合地理位置信息并充分利用其所在文本指向性信息的机构命名排歧算法,能够辅助实现快速准确地实现不同机构之间的命名排歧,准确率高于现有方法的20%以上。
根据本发明实施例提出的基于地理位置信息的机构命名排歧方法,通过对输入文本信息进行机构抽取及指向性信息挖掘,并进行地理位置信息映射及结构化,结合相似度算法进行相似度计算,最后根据计算的相似度值进行命名排歧,能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
其次参照附图描述根据本发明实施例提出的基于地理位置信息的机构命名排歧装置。
图6为根据本发明一个实施例的基于地理位置信息的机构命名排歧装置结构示意图。
如图6所示,该基于地理位置信息的机构命名排歧装置包括:处理模块100、映射模块200、计算模块300和输出模块400。
其中,处理模块100,用于获取输入文本信息,对输入文本信息进行抽取生成机构信息集合,对输入文本信息进行挖掘生成机构信息集合中的每个机构对应的具有地理位置指向性的信息,将具有地理位置指向性的信息结构化为地理位置指向性信息集合。
映射模块200,用于根据机构信息集合、地理位置指向性信息集合和多地图API,将机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合。
计算模块300,用于根据相似度算法对结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵。
输出模块400,用于根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
该装置10能够辅助实现快速准确地实现不同机构之间的命名排歧。
进一步地,在本发明的一个实施例中,映射模块,具体用于,
根据机构信息集合和地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将机构信息集合、地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成结构化机构信息集合。
进一步地,在本发明的一个实施例中,计算模块,具体用于,
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据相似度值和距离值计算结构化机构信息集合中任意两个元素的机构相似度值;
根据机构相似度值生成机构相似度矩阵。
进一步地,在本发明的一个实施例中,根据相似度值和距离值计算结构化机构信息集合中任意两个元素的机构相似度值的公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,
Figure BDA0002237138720000081
d为距离值,g1和g2为结构化机构信息集合中的元素。
进一步地,在本发明的一个实施例中,输出模块,具体用于,
根据机构相似度矩阵和相似度阈值进行判断,将机构相似度矩阵中的机构相似度值大于相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大相似度阈值再进行判断,若没有,则结束,输出排歧结果。
需要说明的是,前述对基于地理位置信息的机构命名排歧方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于地理位置信息的机构命名排歧装置,通过对输入文本信息进行机构抽取及指向性信息挖掘,并进行地理位置信息映射及结构化,结合相似度算法进行相似度计算,最后根据计算的相似度值进行命名排歧,能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于地理位置信息的机构命名排歧方法,其特征在于,包括以下步骤:
S1,获取输入文本信息,对所述输入文本信息进行抽取生成机构信息集合,对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息,将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合;
S2,根据所述机构信息集合、所述地理位置指向性信息集合和多地图API,将所述机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合;
S3,根据相似度算法对所述结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;
S4,根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
2.根据权利要求1所述的基于地理位置信息的机构命名排歧方法,其特征在于,所述S2进一步包括:
根据所述机构信息集合和所述地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将所述机构信息集合、所述地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成所述结构化机构信息集合。
3.根据权利要求1所述的基于地理位置信息的机构命名排歧方法,其特征在于,所述S3进一步包括:
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据所述地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值;
根据所述机构相似度值生成所述机构相似度矩阵。
4.根据权利要求4所述的基于地理位置信息的机构命名排歧方法,其特征在于,所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,
Figure FDA0002237138710000021
d为所述距离值,g1和g2为所述结构化机构信息集合中的元素。
5.根据权利要求1所述的基于地理位置信息的机构命名排歧方法,其特征在于,所述S4进一步包括:
根据所述机构相似度矩阵和相似度阈值进行判断,将所述机构相似度矩阵中的所述机构相似度值大于所述相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大所述相似度阈值再进行判断,若没有,则结束,输出排歧结果。
6.一种基于地理位置信息的机构命名排歧装置,其特征在于,包括:
处理模块,用于获取输入文本信息,对所述输入文本信息进行抽取生成机构信息集合,对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息,将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合;
映射模块,用于根据所述机构信息集合、所述地理位置指向性信息集合和多地图API,将所述机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合;
计算模块,用于根据相似度算法对所述结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;
输出模块,用于根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
7.根据权利要求6所述的基于地理位置信息的机构命名排歧装置,其特征在于,所述映射模块,具体用于,
根据所述机构信息集合和所述地理位置指向性信息集合进行多地图API映射查询得到每个机构在不同地图API的映射结果;
根据不同地图API的映射结果进行两两距离计算,根据距离计算结果和预设距离将映射结果进行分类,根据分类结果确定每个机构的地理位置信息,将所述机构信息集合、所述地理位置指向性信息集合和每个机构的地理位置信息进行结构化组成所述结构化机构信息集合。
8.根据权利要求6所述的基于地理位置信息的机构命名排歧装置,其特征在于,所述计算模块,具体用于,
根据每个机构的对应的文本信息和gestalt相似度算法计算每个机构间的相似度值,根据所述地理位置指向性信息集合计算每个机构地理位置间的距离值;
根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值;
根据所述机构相似度值生成所述机构相似度矩阵。
9.根据权利要求6所述的基于地理位置信息的机构命名排歧装置,其特征在于,所述根据所述相似度值和所述距离值计算所述结构化机构信息集合中任意两个元素的机构相似度值的公式为:
Sim(g1,g2)=α×w1+β×w2
其中,α和β为文本相似度值w1和距离相似度值w2的权重,
Figure FDA0002237138710000031
d为所述距离值,g1和g2为所述结构化机构信息集合中的元素。
10.根据权利要求6所述的基于地理位置信息的机构命名排歧装置,其特征在于,所述输出模块,具体用于,
根据所述机构相似度矩阵和相似度阈值进行判断,将所述机构相似度矩阵中的所述机构相似度值大于所述相似度阈值的归为相似机构数组,判断不同的相似机构数组之间是否有重叠,若有,则增大所述相似度阈值再进行判断,若没有,则结束,输出排歧结果。
CN201910987453.0A 2019-10-17 2019-10-17 基于地理位置信息的机构命名排歧方法及装置 Pending CN110851669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910987453.0A CN110851669A (zh) 2019-10-17 2019-10-17 基于地理位置信息的机构命名排歧方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910987453.0A CN110851669A (zh) 2019-10-17 2019-10-17 基于地理位置信息的机构命名排歧方法及装置

Publications (1)

Publication Number Publication Date
CN110851669A true CN110851669A (zh) 2020-02-28

Family

ID=69597757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910987453.0A Pending CN110851669A (zh) 2019-10-17 2019-10-17 基于地理位置信息的机构命名排歧方法及装置

Country Status (1)

Country Link
CN (1) CN110851669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251532A (zh) * 2023-11-13 2023-12-19 中国科学院文献情报中心 一种基于动态多级匹配的大规模文献机构消歧方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
US20170337292A1 (en) * 2015-02-13 2017-11-23 Alibaba Group Holding Limited Text address processing method and apparatus
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388023A (zh) * 2008-09-12 2009-03-18 北京搜狗科技发展有限公司 电子地图兴趣点数据冗余检测方法和系统
US20170337292A1 (en) * 2015-02-13 2017-11-23 Alibaba Group Holding Limited Text address processing method and apparatus
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN110209771A (zh) * 2019-06-14 2019-09-06 哈尔滨哈银消费金融有限责任公司 用户地理信息分析与文本挖掘方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251532A (zh) * 2023-11-13 2023-12-19 中国科学院文献情报中心 一种基于动态多级匹配的大规模文献机构消歧方法
CN117251532B (zh) * 2023-11-13 2024-01-23 中国科学院文献情报中心 一种基于动态多级匹配的大规模文献机构消歧方法

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
US11132372B2 (en) Method and apparatus for precise positioning of scholar based on mining of scholar's scientific research achievement
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN109117464A (zh) 一种基于编辑距离的数据相似度检测方法
CN107203526B (zh) 一种查询串语义需求分析方法及装置
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN102915314A (zh) 一种纠错对自动生成方法及系统
CN105589936A (zh) 一种数据查询方法及系统
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN108831442A (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN111950280A (zh) 地址匹配方法及装置
CN106485272A (zh) 基于流形约束的跨模态嵌入的零样本分类方法
CN109978430A (zh) 一种解析用户地址的方法、装置、服务器及存储介质
CN110851669A (zh) 基于地理位置信息的机构命名排歧方法及装置
CN106951509A (zh) 多标签核化典型相关分析检索方法
Pasley et al. Geo-tagging for imprecise regions of different sizes
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN104615621A (zh) 搜索中的相关性处理方法和系统
CN103150388A (zh) 一种提取关键词的方法及装置
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
US20140280050A1 (en) Term searching based on context
Campelo et al. A model for geographic knowledge extraction on web documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200228