CN110990524A - 基于可靠信息库的学术成果机构命名排歧方法及装置 - Google Patents

基于可靠信息库的学术成果机构命名排歧方法及装置 Download PDF

Info

Publication number
CN110990524A
CN110990524A CN201911017874.7A CN201911017874A CN110990524A CN 110990524 A CN110990524 A CN 110990524A CN 201911017874 A CN201911017874 A CN 201911017874A CN 110990524 A CN110990524 A CN 110990524A
Authority
CN
China
Prior art keywords
suspected
entity
naming
reliable
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911017874.7A
Other languages
English (en)
Inventor
唐杰
邵洲
袁莎
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911017874.7A priority Critical patent/CN110990524A/zh
Publication of CN110990524A publication Critical patent/CN110990524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于可靠信息库的学术成果机构命名排歧方法及装置,其中,该方法包括:从学术成果文本中提取机构相关信息,并获取机构字符串;按照特殊字符对机构字符串进行分割,并对分割后的字符串部分实体命名识别,将属于实体命名的存入疑似机构队列;对疑似机构队列进行地理位置信息映射,得到机构地理位置信息;根据可靠机构数据集进行多类名称相似度计算,得到疑似机构实体序列和对应的最高相似名称相似度值;对疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。该方法能够简单快速准确地实现学术成果中机构的命名排歧,并实现机构名称的标准化。

Description

基于可靠信息库的学术成果机构命名排歧方法及装置
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于可靠信息库的学术成果机构命名排歧方法及装置。
背景技术
学术成果中的机构实体信息文本较短,易出现表达歧义等问题,可靠外部信息库,能够为短文本提供足够的对照信息,这为实现学术成果中机构的命名排歧提供了可能。基于可靠机构信息库的机构命名排歧,可以应用到多种应用中,例如无歧义机构实体信息库的构建,机构合作网络分析等。
机构名称在特定的时间和空间范围内有一定的排他性,但在超出特定时间和空间的范围内呈现出较强的歧义性。机构名称的命名排歧是地址命名排歧的一个细分类别,基于可靠信息库的地址命名排歧方法已经得到了较多人的关注,例如,Buscaldi等人在借助WordNet的地理参考版本的基础上对基于知识的方法和基于地图的方法进行了比较,结果表明,相对而言基于知识的方法可以在较小的上下文下获得更好的结果;Hu等介绍了借助维基百科的语义网版本DBpedia,通过其提供的结构化的和机器可理解的知识,来消除短文中地名歧义的方法,该方法的准确性和通用性较强;Machado等引入了一个名叫OntoGazetteer本体论地名词典来辅助文本地名消歧,该方法能够很容易地推导出地理和拓扑关系。这些方法需要建立复杂的工具系统,整体复杂度较高,实施起来难度较大。此外,在解决学术成果中学者机构命名排歧上准确度相对偏低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于可靠信息库的学术成果机构命名排歧方法,该方法能够简单快速准确地实现学术成果中机构的命名排歧,并实现机构名称的标准化。
本发明的另一个目的在于提出一种基于可靠信息库的学术成果机构命名排歧装置。
为达到上述目的,本发明一方面实施例提出了基于可靠信息库的学术成果机构命名排歧方法,包括以下步骤:从学术成果文本中提取机构相关信息,并获取机构字符串;按照特殊字符对所述机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列;对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息;根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值;对所述疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。
本发明实施例的基于可靠信息库的学术成果机构命名排歧方法,在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧,能够简单快速准确地解决学术成果中机构的命名排歧,并实现机构名称的标准化。
另外,根据本发明上述实施例的基于可靠信息库的学术成果机构命名排歧方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。
可选地,在本发明的一个实施例中,所述对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列,包括:判断所述分割后的字符串部分是否属于命名实体;若属于,则属于命名实体的部分保存并存入所述疑似机构队列;若不属于,则不属于命名实体的部分丢弃。
可选地,在本发明的一个实施例中,所述对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息,包括:采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除;若返回映射结果,则对所述映射结果和所述机构文本进行计算,得到所述机构地理位置信息;若未返回映射结果,则将所述机构文本删除。
进一步地,在本发明的一个实施例中,所述根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值,包括:根据所述可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入所述疑似机构实体序列中,最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
为达到上述目的,本发明另一方面实施例提出了基于可靠信息库的学术成果机构命名排歧装置,包括:提取模块,用于从学术成果文本中提取机构相关信息,并获取机构字符串;识别模块,用于按照特殊字符对所述机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列;映射模块,用于对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息;计算模块,用于根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值;筛选模块,用于对所述疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。
本发明实施例的基于可靠信息库的学术成果机构命名排歧装置,在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧,能够简单快速准确地解决学术成果中机构的命名排歧,并实现机构名称的标准化。
另外,根据本发明上述实施例的基于可靠信息库的学术成果机构命名排歧装置,还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。
可选地,在本发明的一个实施例中,所述识别模块包括:判断所述分割后的字符串部分是否属于命名实体;若属于,则属于命名实体的部分保存并存入所述疑似机构队列;若不属于,则不属于命名实体的部分丢弃。
可选地,在本发明的一个实施例中,所述映射模块包括:采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除;若返回映射结果,则对所述映射结果和所述机构文本进行计算,得到所述机构地理位置信息;若未返回映射结果,则将所述机构文本删除。
进一步地,在本发明的一个实施例中,所述计算模块包括:根据所述可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入所述疑似机构实体序列中,最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于可靠信息库的学术成果机构命名排歧方法流程图;
图2为根据本发明一个实施例中文本信息分割及命名实体识别的流程图;
图3为根据本发明一个实施例中疑似机构队列地理位置信息映射的流程图;
图4为根据本发明一个实施例中基于可靠机构数据集O的文本相似度查询方法的流程图;
图5为根据本发明一个实施例中基于可靠机构库的相似度比对算法的流程图;
图6为根据本发明一个实施例的基于可靠信息库的学术成果机构命名排歧装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法及装置,首先将参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法。
首先,本发明实施例需要解决的问题进行说明和形式化定义:可靠机构信息库是指基于百科、可靠机构介绍等可信度较高的信息源结构化文本库。输入是一个学术成果文本p,其对应机构字符串为a1,...,an,可靠的机构库为O,O中包含机构的标准名称、别名、曾用名、简称、机构所在地、机构网址等结构化的信息,O的构建可以通过结构化百科数据等完成。最后,根据方法返回源于可靠机构库O的机构完整实体信息r。
如图1所示,基于可靠信息库的学术成果机构命名排歧方法是建立在完整的可靠机构信息库O上的,整个计算在一个框架流程下进行。
如图1所示,该基于可靠信息库的学术成果机构命名排歧方法包括以下步骤:
在步骤S1中,从学术成果文本中提取机构相关信息,并获取机构字符串。
具体而言,在可靠机构信息库O中输入一个学术成果的文本p,从学术成果的文本p中提取机构相关的信息,通过对文本进行处理获得机构字符串,为a1,...,an
在步骤S2中,按照特殊字符对机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列。
进一步地,在本发明的一个实施例中,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对分割后的字符串部分进行实体命名识别。
可选地,在本发明的一个实施例中,对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列,包括:判断分割后的字符串部分是否属于命名实体;若属于,则属于命名实体的部分保存并存入疑似机构队列;若不属于,则不属于命名实体的部分丢弃。
也就是说,根据机构字符串a1,...,an的结构信息按照特殊字符对a1,...,an进行分割,并对分割的字符串部分进行命名实体的识别,属于命名实体的部分保留并存入疑似机构队列S中,不属于命名实体的部分丢弃。
在步骤S3中,对疑似机构队列进行地理位置信息映射,得到机构地理位置信息。
进一步地,在本发明的一个实施例中,对疑似机构队列进行地理位置信息映射,得到机构地理位置信息,包括:采用多地图API对疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从疑似机构队列中删除;若返回映射结果,则对映射结果和机构文本进行计算,得到机构地理位置信息;若未返回映射结果,则将机构文本删除。
也就是说,对疑似机构队列S中的信息进行多地图API下的地理位置信息映射,对于不能映射获得地理位置信息的疑似机构从疑似机构队列S中删除,返回结构化了的包含地理位置信息的集合G。
在步骤S4中,根据可靠机构数据集进行多类名称相似度计算,得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值。
进一步地,在本发明的一个实施例中,基于可靠机构数据集的文本相似度查询方法,根据可靠机构数据集进行多类名称相似度计算,得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值,包括:根据可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入疑似机构实体序列中,最终返回可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
也就是说,根据可靠机构数据集O中的标准名称、别名、曾用名、简称等进行多类名称相似度的计算,计算得到可靠机构库O中的疑似机构实体序列B及对应的最高名称相似度值C。
在步骤S5中,对疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。
下面以学术论文为例,详细介绍如何通过基于可靠信息库的学术成果机构命名排斥方法来实现对论文文本p中的机构字符串a1,...,an进行命名排歧的。
步骤1:机构信息提取
若论文文本p是结构化的文本,则只需要对该结构化文本的各个部分进行类型的识别即可,若论文文本p是非结构化的文本,则需要使用常规的常用技术和方法对p进行信息的抽取,如模式匹配、正则表达式等方法。最终,生成机构信息a1,...,an。机构本文如:“Division of Applied Sciences and Department of Physics,Harvard University,Cambridge,MA 02138,U.S.A.”。
步骤2:文本信息分割及命名实体识别
如图2所示,对步骤1中提取出来的机构文本进行文本信息的分割和命名实体的识别,对于机构文本中的属于命名实体的部分保留并存入疑似机构队列S中,不属于命名实体的部分丢弃。其中,文本的分割主要基于特殊字符,如分号,冒号等;命名实体的识别主要采用一般的自然语言处理工具如NLTK、Stanford NLP等。
步骤3:疑似机构队列S地理位置信息映射
如图3所示,在步骤2的基础上,采用多地图API,对疑似机构队列S中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将其从疑似机构队列S中删除,最终返回结构化了的包含地理位置信息的集合G。其中,相似结果的分组主要根据不同API中返回的结果进行两两距离计算,根据计算结果,将距离1公里以内的结果分为一类,选择结果数目较多的类,计算该类中的中心位置,最后计算出来的中心点为最后的地理位置信息,其集合为G。
可以理解的是,多地图API一般包括,高德地图API,谷歌地图API,百度地图API,必应地图API等。
步骤4:基于可靠机构数据集O的文本相似度查询方法
如图4所示,根据可靠机构数据集O中的标准名称、别名、曾用名、简称等进行多类名称相似度的计算,并根据相似度计算的结果的不同类型,判断是否将其加入到疑似机构实体序列B中,最终返回可靠机构库O中的疑似机构实体序列B及对应的最高名称相似度值C。如果B的结果为空,则继续进行字符串的拼写检查再进行多类名称的相似度计算。
其中,相似度计算采用John W Ratcliff等提出来的一种序列的文本相似度方法gestalt相似度算法,字符串的拼写检查采用Burkhard等人提出来的Burkhard-Keller树方法。ɑ、β和θ均为相似度的阈值,一般情况下ɑ、β和θ的值设为0.8、0.85和0.85。简称完全命中要求字符串完全匹配,其相似度值默认为1。
步骤5:基于可靠机构库的相似度比对算法
如图5所示,根据步骤4的结果,对疑似机构实体序列B中的结果进行地址抽取及地理位置信息映射,并通过计算与G地理上的距离和最高名称相似度值C的最终相似度值筛选出最佳结果。
其中,疑似机构实体序列B的地址抽取及地理位置信息映射的方法如步骤2中所述,实现疑似机构实体集合与G进行距离计算是将经纬度坐标的差距转化为二维空间的距离,该距离序列为D,该距离值所对应的名称相似度序列为C,则对于疑似机构实体序列B的一个候选机构b,对应的距离为d,名称相似度的最高值为c,则b与G中任意一个元素g的相似度值Sim(b,g)为:
Sim(b,g)=0.8×c+0.2×w
式中,w为距离为d的计算值,当d<0.8公里的时候w=1,当0.8≤d<1.5的时候w=0.3,d≥1.5的时候w=0。
最后,依据相似度值Sim(b,g)中的最大值,返回最佳的结果r。返回的r就是可靠机构库中的已经结构化好的机构实体。
根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧方法,在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧。试验表明,在AMiner数据集上该算法的准确率高于现有方法6.8%左右,同时规范化命名机构实体比例提升40%以上,能够简单快速准确地解决学术成果中机构的命名排歧,并实现机构名称的标准化。
其次参照附图描述根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧装置。
图6是本发明一个实施例的基于可靠信息库的学术成果机构命名排歧装置结构示意图。
如图6所示,该装置10包括:提取模块100、识别模块200、映射模块300、计算模块400和筛选模块500。
其中,提取模块100用于从学术成果文本中提取机构相关信息,并获取机构字符串。识别模块200用于按照特殊字符对机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列。映射模块300用于对疑似机构队列进行地理位置信息映射,得到机构地理位置信息。计算模块400用于根据可靠机构数据集进行多类名称相似度计算,得到可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值。筛选模块500用于对疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。本发明实施例的学术成果机构命名排歧装置10能够简单快速准确地实现学术成果中机构的命名排歧,并实现机构名称的标准化。
进一步地,在本发明的一个实施例中,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对分割后的字符串部分进行实体命名识别。
可选地,在本发明的一个实施例中,识别模块200包括:判断分割后的字符串部分是否属于命名实体;若属于,则属于命名实体的部分保存并存入疑似机构队列;若不属于,则不属于命名实体的部分丢弃。
可选地,在本发明的一个实施例中,映射模块300包括:采用多地图API对疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从疑似机构队列中删除;若返回映射结果,则对映射结果和机构文本进行计算,得到机构地理位置信息;若未返回映射结果,则将机构文本删除。
进一步地,在本发明的一个实施例中,计算模块400包括:根据可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入疑似机构实体序列中,最终返回可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
根据本发明实施例提出的基于可靠信息库的学术成果机构命名排歧装置,在可靠信息库的基础上通过结合地理位置信息和文本的相似度匹配算法实现机构实体的命名排歧,能够简单快速准确地解决学术成果中机构的命名排歧,并实现机构名称的标准化。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于可靠信息库的学术成果机构命名排歧方法,其特征在于,包括以下步骤:
从学术成果文本中提取机构相关信息,并获取机构字符串;
按照特殊字符对所述机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列;
对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息;
根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值;以及
对所述疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。
2.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法,其特征在于,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。
3.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法,其特征在于,所述对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列,包括:
判断所述分割后的字符串部分是否属于命名实体;
若属于,则属于命名实体的部分保存并存入所述疑似机构队列;
若不属于,则不属于命名实体的部分丢弃。
4.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法,其特征在于,所述对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息,包括:
采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除;
若返回映射结果,则对所述映射结果和所述机构文本进行计算,得到所述机构地理位置信息;
若未返回映射结果,则将所述机构文本删除。
5.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法,其特征在于,所述根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值,包括:
根据所述可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入所述疑似机构实体序列中,最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
6.一种基于可靠信息库的学术成果机构命名排歧装置,其特征在于,包括:
提取模块,用于从学术成果文本中提取机构相关信息,并获取机构字符串;
识别模块,用于按照特殊字符对所述机构字符串进行文本分割,并对分割后的字符串部分进行实体命名识别,将属于实体命名的部分保存并存入疑似机构队列;
映射模块,用于对所述疑似机构队列进行地理位置信息映射,得到机构地理位置信息;
计算模块,用于根据可靠机构数据集进行多类名称相似度计算,得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值;以及
筛选模块,用于对所述疑似机构实体序列进行地址抽取及地理位置信息映射,并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。
7.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置,其特征在于,基于特殊符号对机构字符串进行文本分割,采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。
8.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置,其特征在于,所述识别模块包括:
判断所述分割后的字符串部分是否属于命名实体;
若属于,则属于命名实体的部分保存并存入所述疑似机构队列;
若不属于,则不属于命名实体的部分丢弃。
9.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置,其特征在于,所述映射模块包括:
采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射,根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除;
若返回映射结果,则对所述映射结果和所述机构文本进行计算,得到所述机构地理位置信息;
若未返回映射结果,则将所述机构文本删除。
10.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧装置,其特征在于,所述计算模块包括:
根据所述可靠机构数据集进行多类名称相似度计算,并根据相似度计算的结果的不同类型,判断是否将当前类型加入所述疑似机构实体序列中,最终返回所述可靠机构数据集中的疑似机构实体序列及对应的最高名称相似度值。
CN201911017874.7A 2019-10-24 2019-10-24 基于可靠信息库的学术成果机构命名排歧方法及装置 Pending CN110990524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911017874.7A CN110990524A (zh) 2019-10-24 2019-10-24 基于可靠信息库的学术成果机构命名排歧方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911017874.7A CN110990524A (zh) 2019-10-24 2019-10-24 基于可靠信息库的学术成果机构命名排歧方法及装置

Publications (1)

Publication Number Publication Date
CN110990524A true CN110990524A (zh) 2020-04-10

Family

ID=70082328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911017874.7A Pending CN110990524A (zh) 2019-10-24 2019-10-24 基于可靠信息库的学术成果机构命名排歧方法及装置

Country Status (1)

Country Link
CN (1) CN110990524A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US20170300941A1 (en) * 2016-04-13 2017-10-19 Quayshawn Spencer Academic ranking system and method
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US20170300941A1 (en) * 2016-04-13 2017-10-19 Quayshawn Spencer Academic ranking system and method
CN108304380A (zh) * 2018-01-24 2018-07-20 华南理工大学 一种融合学术影响力的学者人名消除歧义的方法
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
Bakillah et al. Geo-located community detection in Twitter with enhanced fast-greedy optimization of modularity: the case study of typhoon Haiyan
Davis Jr et al. Inferring the location of twitter messages based on user relationships
Han et al. A stacking-based approach to twitter user geolocation prediction
JP5596235B2 (ja) グラフデータストリーム内のオブジェクトをクラス化するための方法
US9063226B2 (en) Detecting spatial outliers in a location entity dataset
US8290968B2 (en) Hint services for feature/entity extraction and classification
Ghahremanlou et al. Geotagging twitter messages in crisis management
Kamalloo et al. A coherent unsupervised model for toponym resolution
CN110851552A (zh) 物流订单的自动分配方法及装置、电子设备、存储介质
AU2019290018B2 (en) Computer implemented system and method for geographic subject extraction for short text
CN110765280B (zh) 地址识别方法和装置
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
Abdolmajidi et al. Matching authority and VGI road networks using an extended node-based matching algorithm
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
US10909473B2 (en) Method to determine columns that contain location data in a data set
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN110990524A (zh) 基于可靠信息库的学术成果机构命名排歧方法及装置
Apreleva et al. Predicting the location of users on Twitter from low density graphs
CN114443920A (zh) 地址信息解析方法、装置、电子设备和计算机可读介质
US11138244B2 (en) Detection and visualization of geographic data
Sarwar et al. Machine learning based intelligent framework for data preprocessing.
CN112861023A (zh) 地图信息处理方法、装置、设备、存储介质及程序产品
CN114861062B (zh) 信息过滤方法和装置
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200410