CN111325235B - 面向多语种的通用地名语义相似度计算方法及其应用 - Google Patents

面向多语种的通用地名语义相似度计算方法及其应用 Download PDF

Info

Publication number
CN111325235B
CN111325235B CN202010058317.6A CN202010058317A CN111325235B CN 111325235 B CN111325235 B CN 111325235B CN 202010058317 A CN202010058317 A CN 202010058317A CN 111325235 B CN111325235 B CN 111325235B
Authority
CN
China
Prior art keywords
place name
place
similarity
names
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010058317.6A
Other languages
English (en)
Other versions
CN111325235A (zh
Inventor
张雪英
薛理
叶鹏
赵文强
吴恪涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202010058317.6A priority Critical patent/CN111325235B/zh
Priority to PCT/CN2020/085814 priority patent/WO2021142968A1/zh
Priority to AU2020101024A priority patent/AU2020101024A4/en
Publication of CN111325235A publication Critical patent/CN111325235A/zh
Application granted granted Critical
Publication of CN111325235B publication Critical patent/CN111325235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种面向多语种的通用地名语义相似度计算方法及其应用。通过分析多种语种地名的构词特点、隶属关系和空间位置等语义特征,发现地名的类别、字符串和空间位置特征容易获取且能够有效地区分地名。由此,本发明根据这三种地名语义特征,分别构建地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型。然后,综合考虑地名类别相似度、字符串相似度和空间邻近度,提出一种面向多语种的通用地名语义相似度计算方法。相比于只考虑地名字符串或空间几何特征的地名相似度计算方法,本发明提供的方法能够显著提高地名相似度计算的准确性,可以更好地满足大数据环境下多语种地名的查询、匹配和共享服务等应用需求。

Description

面向多语种的通用地名语义相似度计算方法及其应用
技术领域
本发明属于地理信息科学领域,涉及一种面向多语种的通用地名语义相似度计算方法及其在多语种数据库地名查询中的应用。
背景技术
地名是人类对地理环境具有特定位置、范围及形态特征的地理对象和地理现象所共同约定的语言符号。语义是数据(符号)所代表的概念的含义,以及这些含义之间的关系。随着计算机技术的发展与移动互联网的普及,不同国家、机构或者企业已经建立了各种类型的地名信息库,且大部分地名信息库包含地名类别,经纬度等信息。然而,这些地名信息库在覆盖范围、数据形式、语种类型、数据内容等方面存在较大的差异。因此如何快速、准确的计算不同地名信息库中的地名相似度,已成为地名研究中的重要课题。
目前地名相似度计算方法主要分为三类。①一类是基于地名字符串的,即通过比较地名的字符串来计算地名相似度,如Smart等将规则模型与隐马尔可夫模型相结合,可以有效解决地名拼写、格式、字符集等不一致问题;占斌斌等利用基于地名建立的通名词典和结构规则库判定地名类型,然后通过字符串相似度匹配得到最佳的地名数据匹配结果,并在德州市实验区得到了较好的验证结果;叶鹏等在顾及中文字符多级特征的基础上,基于中文地名词典构建了地名单字索引,利用字符过滤与相似度排序等机制实现中文地名的高效匹配。②第二类是基于地理要素的,即利用地名的空间位置、面积和形状等几何信息计算地名的相似度。如Egenhofer和Clementini提出了度量多重表达中空间几何数据结构不一致性及拓扑关系不一致性的标准,能够较为理想的判断空间几何数据的一致性;Van等利用K中心点聚类和朴素贝叶斯分类法能够对带有地理标签的照片进行地名一致性处理。③第三类是基于地名语义的相似度计算方法。如陈佳丽多重表达的空间数据在空间关系、语义和几何方面可能存在不一致性,因此必须对这些不一致性进行评价和修正,把本体引入地理信息建模中,结合语义一致性,以基于对象匹配的方法实现数据匹配。
上述学者在地名相似度计算方面,取得了不错的成果。但是依然存在某些问题:①编辑距离算法等算法通过分析地名单一特征计算地名相似度,如地名字符串或地名几何特征,并没有考虑地名的其它特征,导致在某些特殊情况下地名相似度的准确度并不理想,尤其是地名重名,地名空间位置接近等特殊情况。②部分算法是针对特定语言提出的算法,对于其它语言并不适用。因此,如何在地名数据来源广,数据结构复杂,语义差异大等的情况下,实现地名相似度计算,是本领域技术人员需要研究和解决的难题。
发明内容
发明目的:有鉴于此,本发明提供了一种面向多语种的通用地名语义相似度计算方法,目的在于解决现有地名相似度计算方法准确率不高,通用性弱的问题。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
面向多语种的通用地名语义相似度计算方法,包括如下步骤:
根据语种编码区间确定地名语种,并根据文献信息将地名进行归一化为罗马化地名;
从地名信息库中获取两个地名的类别属性信息,根据地名分类体系及地名类别相似度模型计算地名类别相似度;
根据地名字符串相似度模型计算罗马化后地名的字符串相似度;
从地名信息库中获取两个地名的经纬度,根据地名空间邻近度模型计算地名的空间邻近度;
根据地名类别相似度、字符串相似度和空间邻近度确定地名相似度;
作为优选,根据地名分类体系及地名类别相似度模型计算地名类别相似度包括:
如果两地名类别位于分类体系的同一子类下的类别,则计算共同父类到根节点的距离之和最近的共同父类地名类别到两地名类别的距离,然后利用同类别相似度模型计算属性相似度;如果两地名类别位于不同子类下的类别,则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。
作为优选,同一子类下的类别相似度模型表示为:
Figure BDA0002373532410000021
其中,Sc(i,j)表示地名i和j的地名类别相似度,l表示地名i和j的类别的最近的共同父类到根节点的距离,di表示地名i和j的类别的最近的共同父类到i的类别的距离,dj表示地名i和j的类别的最近的共同父类到j的类别的距离,α(i,j)表示最近的共同父类到i和j的类别的距离之和
作为优选,不同子类下的类别相似度模型表示为:
Figure BDA0002373532410000022
其中,Sc(i,j)表示地名i和j的地名类别相似度,β’表示i和j的类别所在子类的相关度,d’i表示i和j的类别的最近的共同父类到i的类别的距离,d’j表示i和j的类别的最近的共同父类到j的类别的距离;α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
作为优选,地名字符串相似度模型表示为:
Figure BDA0002373532410000031
其中,A(i,j)表示地名i和j的地名字符串相似度,d[i,j]代表地名i和j的编辑距离,ML代表地名i和j字符串长度的最大值,Len代表最小匹配长度,L(i)代表地名i字符串的长度,L(j)代表地名j字符串的长度,a和b表示权重。
作为优选,采用地名空间邻近度模型计算空间邻近度。地名空间邻近度模型表示为:
Figure BDA0002373532410000032
Figure BDA0002373532410000033
其中,SE(i,j)代表地名i和j的地名的空间邻近度,loni,lonj,lati和latj分别为地名i和j的经纬度。
作为优选,地名语义相似度的计算模型为:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,F(i,j)表示地名i和j的地名语义相似度。
所述的地名语义相似度计算方法在多语种地名数据查询中的应用,主要包括如下步骤:
通过地名信息库提取所有地名的字符串、类别和经纬度属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量、字符位置语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建;
确定待查询的地名的字符串、类别和经纬度属性,并进行归一化处理;
根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有进行筛选,其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件;
依次将待查询地名与所有候选地名采用根据所述的面向多语种的通用地名语义相似度计算方法进行计算;
将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。
有益效果:本发明根据地名的构词特点、地名类别和位置特征,分别构建了地名类别相似度模型、地名字符串相似度模型和地名空间邻近度模型,并根据这三种模型,提出一种通用地名语义相似度计算方法。本发明的有益效果在于改进编辑距离算法,从而能够同时顾及通名和专名的影响。引入地名类别特征,根据地名类别分类体系构建地名类别相似度模型。同时考虑地名的空间特征,构建地名空间邻近度模型;最后,综合考虑地名字符串、位置和类别特征,提出一种通用地名语义相似度计算方法。因此,相对于针对单一特征的地名相似度计算方法,具有更高的准确率和普适性。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例中地名类别结构示意图。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
如图1所示,本发明实施例公开的一种面向多语种的通用地名语义相似度计算方法,主要包括如下步骤:
步骤1:根据地名编码区间识别地名i和j的语种,并根据文献信息归一化地名i和j为罗马化地名。
由于数据获取手段和人为因素等影响,不同语种的数据在数据格式和编码等方面差异较大,因此需要对地名进行预处理,以便于在地名信息库中找到相应的地名类别等信息。
本步骤中,地名编码区间是指每个语种所对应的不同的编码区间,即每个语种的Unicode十六进制编码区间是惟一的,因此能够根据地名编码区间确定地名语种。
罗马化地名是指每个国家官方最新出版的地名录、地名词典和地方志等资料中含有地名相对应的罗马地名。
步骤2:从地名信息库中获得地名i和j的类别,根据地名类别相似度模型,计算地名i和j的类别相似度。
本步骤中,地名类别相似度是指在同一分类体系中,两个地名数据所属类别的相关程度。地名数据类别是指数据按专题要素进行分类,分类体系可以使用层次化的树状结构来描述类与类之间的逻辑关系。地名类别按照地名分类体系,分类对照表如表1所示。
表1 GeoNames、GNS要素类别对照表
Figure BDA0002373532410000051
GNIS数据源直接提供类别的全称,可参照上述分类标准,总结各大类所包含的地名要素类别,设计GNIS类别与标准分类映射表,如表2所示。通过表中映射关系,添加GNIS要素类别代码属性,表3为部分地名分类代码表。
表2 GNIS类别与标准分类映射表
Figure BDA0002373532410000052
Figure BDA0002373532410000061
表3部分地名分类代码表
Figure BDA0002373532410000062
通过分析发现,地名属性中类别相似度能够反映同一分类体系中两个数据所属类别的相关程度。因此,计算类与类的相关性需要处理分类树中父子节点、兄弟节点等不同类型的关系。为了便于理解以大类P部分类别为例,做树状图,如图2所示。地名类别相似度算法函数由SC(i,j)表示,当地名i和j在同一子类下的类别时SC(i,j)的计算如下所示(例如,如图2所示,当地名i和j分别属于PPA1和PPA3类别,则PPA1和PPA3都属于同一子类PPA):
Figure BDA0002373532410000063
式中,l表示i和j的类别的最近的共同父类到根节点的距离(边的数量);di表示i和j的类别的最近的共同父类到i的类别的距离(边的数量),dj表示i和j的类别的最近的共同父类到j的类别的距离(边的数量);α(i,j)表示最近的共同父类到i和j的类别的距离之和。
当i和j在不同一子类下的类别时SC(i,j)的计算如下所示:
Figure BDA0002373532410000064
式中β’表示i和j的类别所在子类的相关度,取值在[0,1],可根据实际应用由领域专家给出,d’i表示i和j的类别的最近的共同父类到i的类别的距离(边的数量),d’j表示i和j的类别的最近的共同父类到j的类别的距离(边的数量);α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
步骤3:根据地名字符串相似度模型,计算罗马化地名i和j的名称相似度。
编辑距离又称Levenshtein距离,是一种用于衡量两个序列相似度的距离度量函数。在自然语言处理中,编辑距离是用来计算从原字符串转换到目标字符串所需要进行的插入、删除和替换操作的最少次数。设Si=s1s2…si和Tj=t1t2…tj代表两个字符串,距离d[i,j]是Sj字符串编辑到Tj字符串所用的最小操作数,d[i,j]表明地名i,j的编辑距离,能够有效反映地名间的字符相似程度,公式如下所示:
Figure BDA0002373532410000071
编辑距离是一种用于衡量两个序列相似度的距离度量函数,常用来计算地名字符串的相似度,然而该算法无法有效减少通名的影响,因此对该算法进行了改进,改进后的模型如下所示:
Figure BDA0002373532410000072
式中d[i,j]代表地名i,j的编辑距离,ML代表地名i,j字符串长度的最大值,Len代表最小匹配长度(Len≥1),L(i)代表i字符串的长度,L(j)代表j字符串的长度,a和b表示权重,分别为0.6和0.4。改进后的模型与现有模型名称相似度计算结果比较如表4所示。
表4地名字符串相似度计算结果比较
Figure BDA0002373532410000073
从上表可以看出,Gwaun Creek和Gunye Creek为不同地名,然而编辑距离算法计算相似度高达0.636;Wilipini和Willipinee是相同地名,贪婪字符串匹配算法的相似度结果为0.555,Gbonga和Gbondoi为不同地名,计算结果却为0.615;可以明显发现本发明改进的算法计算的相似度与实际更加吻合。
步骤4:从地名信息库中获得地名i和j的经纬度,根据地名空间邻近度模型,计算地名的空间邻近度。
地名作为基础的地理要素,它可以是一个点要素(比如一个小村庄的地名)、线要素(比如一条公路的地名)、也可以是一个面要素(比如一个行政区的地名),因此,地名数据的几何相似性包含了点要素位置相似性的度量、线要素相似性的度量以及面要素几何相似性的度量,而本发明所研究的全球地名数据均为点要素地名。
对于点要素地名位置的度量通常采用计算距离的方式,基本的思路是分别从两个点要素地名中提取出一组特征向量,在一定的距离空间中对这两组向量的距离进行计算。距离越小,则表明两个地名越相似;反之,距离越大,表明两个地名存在较大的差异。经常用欧式距离来代表两点之间的距离。
欧氏距离(Euclidean Distance),是欧几里得空间中两点之间的普通直线距离,衡量多维空间中各个点之间的绝对距离。其中,若地名之间的欧式距离越大,则所描述地名相似度越低。设i,j表示两个地名,其经纬度分别记为loni,lonj,lati和latj。两个地名之间的欧式空间距离记为disi-j
Figure BDA0002373532410000081
设地名空间邻近度函数为SE(i,j),则本发明针对地名数据空间特征设计的空间距离相似度模型如下所示。
Figure BDA0002373532410000082
其中,SE(i,j)表示两个地名的空间范围相似程度,若两者一致,则取值为1;若两者空间距离越远,则空间范围一致性程度越趋近于0。
步骤5:根据地名语义相似度模型,计算地名语义相似度。
地名语义相似度模型如下:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,F(i,j)表示地名语义相似度,A(i,j),SE(i,j)和Sc(i,j)三个变量分别表示归一化至[0,1]值域范围内的地名字符串相似度与地名空间邻近度和地名类别相似度。
以洪都拉斯、毛里求斯、利比里亚、蒙古、津巴布韦等5个国家各个数据源地名共计约16.7万条地名数据作为实验数据,其中具有一致性可以匹配共计约4.77万条,采用本发明提出的面向多语种的通用地名语义相似度计算方法进行实验,结果如表5所示。
表5实验结果评价指标统计
Figure BDA0002373532410000091
实验结果表明,面向多语种的通用地名语义相似度计算方法对地名进行匹配不仅在准确率上保持在98%以上,而且能够达到97%以上的实际地名数据匹配。
本发明实施例公开的地名语义相似度计算方法在多语种地名数据查询中的应用,主要包括如下步骤:
步骤一:通过地名信息库提取所有地名的字符串、类别和经纬度等属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码等语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量、字符位置等语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建。
步骤二:确定待查询的地名的字符串、类别和经纬度等全部或部分属性,并进行归一化处理。
步骤三:根据待查询地名所确定的字符串、类别和经纬度等属性依次对索引中的所有进行筛选,其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件。
步骤四:依次将待查询地名与所有候选地名采用面向多语种的通用地名语义相似度计算方法进行计算。
步骤五:将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。

Claims (7)

1.一种面向多语种的通用地名语义相似度计算方法,其特征在于,包括如下步骤:
根据语种编码区间确定地名语种,并根据文献信息将地名进行归一化为罗马化地名;
从地名信息库中获取两个地名的类别属性信息,根据地名分类体系及地名类别相似度模型计算地名类别相似度;
根据地名字符串相似度模型计算罗马化后两个地名的字符串相似度;
从地名信息库中获取两个地名的经纬度,然后根据地名空间邻近度模型计算空间邻近度;
根据地名的类别相似度、字符串相似度和空间邻近度确定两个地名的语义相似度;
根据地名分类体系及地名类别相似度模型计算地名类别相似度包括:
如果两地名所属类别位于地名分类体系的同一子类下的类别,则计算共同父类到根节点的距离之和以及最近的共同父类地名类别到两地名类别的距离,然后利用同类别相似模型计算类别相似度;如果两地名所属类别位于不同子类下的类别,则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。
2.根据权利要求1所述的地名语义相似度计算方法,其特征在于,同一子类下的类别相似度模型表示为:
Figure FDA0004135354300000011
其中,Sc(i,j)表示地名i和j的地名类别相似度,l表示地名i和j的类别的最近的共同父类到根节点的距离,di表示地名i和j的类别的最近的共同父类到i的类别的距离,dj表示地名i和j的类别的最近的共同父类到j的类别的距离,α(i,j)表示最近的共同父类到i和j的类别的距离之和。
3.根据权利要求1所述的地名语义相似度计算方法,其特征在于,不同子类下的类别相似度模型表示为:
Figure FDA0004135354300000012
其中,Sc(i,j)表示地名i和j的地名类别相似度,β’表示i和j的类别所在子类的相关度,d’i表示i和j的类别的最近的共同父类到i的类别的距离,d’j表示i和j的类别的最近的共同父类到j的类别的距离;α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
4.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名字符串相似度模型表示为:
Figure FDA0004135354300000013
其中,A(i,j)表示地名i和j的地名字符串相似度,d[i,j]代表地名i和j的编辑距离,ML代表地名i和j字符串长度的最大值,Len代表最小匹配长度,L(i)代表地名i字符串的长度,L(j)代表地名j字符串的长度,a和b表示权重。
5.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名空间邻近度模型表示为:
Figure FDA0004135354300000021
Figure FDA0004135354300000022
其中,SE(i,j)代表地名i和j的地名空间邻近度,loni,lonj,lati和latj分别为地名i和j的经纬度。
6.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名语义相似度的计算模型为:
F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,Sc(i,j)表示地名i和j的地名类别相似度,A(i,j)表示地名i和j的地名字符串相似度,SE(i,j)表示地名i和j的地名空间邻近度,F(i,j)表示地名i和j的地名语义相似度。
7.基于地名语义相似度计算的多语种地名数据查询方法,其特征在于,包括如下步骤:
通过地名信息库提取所有地名的字符串、类别和经纬度属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量和字符位置语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建;
确定待查询的地名的字符串、类别和经纬度属性,并进行归一化处理;
根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有地名进行筛选,得到候选地名;其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件;
依次将待查询地名与所有候选地名采用根据权利要求1-6任一项所述的面向多语种的通用地名语义相似度计算方法进行计算;
将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。
CN202010058317.6A 2020-01-19 2020-01-19 面向多语种的通用地名语义相似度计算方法及其应用 Active CN111325235B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010058317.6A CN111325235B (zh) 2020-01-19 2020-01-19 面向多语种的通用地名语义相似度计算方法及其应用
PCT/CN2020/085814 WO2021142968A1 (zh) 2020-01-19 2020-04-21 面向多语种的通用地名语义相似度计算方法及其应用
AU2020101024A AU2020101024A4 (en) 2020-01-19 2020-04-21 Multi-language oriented general method for calculating place name semanteme similarity and use thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010058317.6A CN111325235B (zh) 2020-01-19 2020-01-19 面向多语种的通用地名语义相似度计算方法及其应用

Publications (2)

Publication Number Publication Date
CN111325235A CN111325235A (zh) 2020-06-23
CN111325235B true CN111325235B (zh) 2023-04-25

Family

ID=71170946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058317.6A Active CN111325235B (zh) 2020-01-19 2020-01-19 面向多语种的通用地名语义相似度计算方法及其应用

Country Status (3)

Country Link
CN (1) CN111325235B (zh)
AU (1) AU2020101024A4 (zh)
WO (1) WO2021142968A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN103890792A (zh) * 2011-10-20 2014-06-25 德国邮政股份公司 位置信息的比较
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN107861947A (zh) * 2017-11-07 2018-03-30 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN110276021A (zh) * 2019-04-29 2019-09-24 小轮(上海)网络科技有限公司 基于语义相似度的地名匹配方法及装置
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2158540A4 (en) * 2007-06-18 2010-10-20 Geographic Services Inc NAME SYSTEM FOR SELECTING GEOGRAPHICAL CHARACTERISTICS

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103890792A (zh) * 2011-10-20 2014-06-25 德国邮政股份公司 位置信息的比较
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN108572960A (zh) * 2017-03-08 2018-09-25 富士通株式会社 地名消岐方法和地名消岐装置
CN108804398A (zh) * 2017-05-03 2018-11-13 阿里巴巴集团控股有限公司 地址文本的相似度计算方法及装置
CN107239442A (zh) * 2017-05-09 2017-10-10 北京京东金融科技控股有限公司 一种计算地址相似度的方法和装置
CN107861947A (zh) * 2017-11-07 2018-03-30 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN110276021A (zh) * 2019-04-29 2019-09-24 小轮(上海)网络科技有限公司 基于语义相似度的地名匹配方法及装置
CN110598791A (zh) * 2019-09-12 2019-12-20 深圳前海微众银行股份有限公司 地址相似度评价方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
归类识别地名匹配算法;占斌斌等;《北京测绘》;20180425(第04期);全文 *
语义支持的地理要素属性相似性计算模型;谭永滨等;《遥感信息》;20170215(第01期);第1-3节 *

Also Published As

Publication number Publication date
AU2020101024A4 (en) 2020-07-23
CN111325235A (zh) 2020-06-23
WO2021142968A1 (zh) 2021-07-22

Similar Documents

Publication Publication Date Title
Xavier et al. A survey of measures and methods for matching geospatial vector datasets
CN102395965B (zh) 用于在数据库中搜索对象的方法
Samal et al. A feature-based approach to conflation of geospatial sources
US9898515B1 (en) Data extraction and transformation method and system
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN113434623B (zh) 一种基于多源异构空间规划数据的融合方法
CN110377747B (zh) 一种面向百科网站的知识库融合方法
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和系统
CN104346438A (zh) 基于大数据数据管理服务系统
CN102880721A (zh) 垂直搜索引擎的实现方法
CN111326236A (zh) 一种医疗图像自动处理系统
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
CN111522892A (zh) 地理要素的检索方法及装置
Mokhtari et al. Tagging address queries in maps search
EP1251435A2 (en) Knowledge database and method for constructing and merging knowledge database
CN111325235B (zh) 面向多语种的通用地名语义相似度计算方法及其应用
CN114201480A (zh) 一种基于nlp技术的多源poi融合方法、装置及可读存储介质
CN112905728A (zh) 一种面向多源地名数据的高效融合与检索系统及方法
Tang et al. Extracting invariant characteristics of sketch maps: Towards place query‐by‐sketch
CN115712720A (zh) 一种基于知识图谱的降雨动态预警方法
CN114513550A (zh) 一种地理位置信息的处理方法、装置及电子设备
Yu et al. An iterative framework with active learning to match segments in road networks
Liao et al. Predicting Distance and Direction from Text Locality Descriptions for Biological Specimen Collections
Choi et al. Developing an alias management method based on word similarity measurement for POI application
CN114492308B (zh) 一种结合知识发现与文本挖掘的产业信息标引方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant