CN117592462B - 基于地物群的开源地名数据的相关性处理方法及装置 - Google Patents
基于地物群的开源地名数据的相关性处理方法及装置 Download PDFInfo
- Publication number
- CN117592462B CN117592462B CN202410070587.7A CN202410070587A CN117592462B CN 117592462 B CN117592462 B CN 117592462B CN 202410070587 A CN202410070587 A CN 202410070587A CN 117592462 B CN117592462 B CN 117592462B
- Authority
- CN
- China
- Prior art keywords
- name
- place
- special
- place name
- open source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims description 38
- 238000012937 correction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000000463 material Substances 0.000 abstract description 11
- 230000000875 corresponding effect Effects 0.000 description 60
- 238000010586 diagram Methods 0.000 description 18
- 230000004927 fusion Effects 0.000 description 12
- 238000013519 translation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 235000017399 Caesalpinia tinctoria Nutrition 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000388430 Tara Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009844 basic oxygen steelmaking Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种基于地物群的开源地名数据的相关性处理方法及装置,包括:获取待处理的开源地名数据集,构建地名数据通名表,利用地名数据通名表对开源地名数据集包含的通名进行替换处理,以提取出开源地名数据集中包含的专名;根据预设重点地名类型,从开源地名数据集包含的专名中确定重点专名及其对应的地物群范围;根据地物群范围从开源地名数据集包含的专名中,确定重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。本发明可以实现批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种基于地物群的开源地名数据的相关性处理方法及装置。
背景技术
现有面向开源地名数据的处理一般包括数据获取、数据预处理、数据译写、数据融合、数据选取等,主要是通过空间数据处理实现开源地名数据的逻辑一致性、尺度一致性,进而集合各个数据的优势生产质量更好的数据。
但是,目前开源地名数据处理主要是针对单个地名数据处理,往往会忽略同一地物群下地名数据的相关性处理,因此存在诸如本身为同一地物群、具有相同专名的地名,却存在音同字不同(如钟楼饭店和中楼广场)、音译意译不同(如river意译为河,音译为里弗)等的问题,而这些问题一般不会在融合、选取等地名数据处理中解决,因此需要耗费较多人力、物力、时间用于逐个地名核查修改。
发明内容
有鉴于此,本发明的目的在于提供一种基于地物群的开源地名数据的相关性处理方法及装置,可以实现批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等。
第一方面,本发明实施例提供了一种基于地物群的开源地名数据的相关性处理方法,包括:
获取待处理的开源地名数据集;
基于所述开源地名数据集构建地名数据通名表,利用所述地名数据通名表对所述开源地名数据集包含的通名进行替换处理,以提取出所述开源地名数据集中包含的专名;其中,所述专名用于区分不同地理实体,所述通名用于描述地理实体类型;
根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名,以及确定所述重点专名对应的地物群范围;
根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。
在一种实施方式中,基于所述开源地名数据集构建地名数据通名表的步骤,包括:
对所述开源地名数据集进行预处理,得到所述开源地名数据集对应的地名选取表;其中,所述地名选取表记录有预处理后的所述开源地名数据集;
对于所述地名选取表中记录的中文地名数据,对所述中文地名数据从右向左进行词组截取,并对截取的中文词组进行个数统计,以从所述中文词组中筛选出第一高频词组;
以及,对于所述地名选取表中记录的外文地名数据,将所述外文地名数据拆分为多个外文词组,对拆分的所述外文词组进行个数统计,以从所述外文词组中筛选出第二高频词组;
基于所述第一高频词组和/或所述第二高频词组构建地名数据通名表;其中,所述地名数据通名表用于记录可替换的通名。
在一种实施方式中,利用所述地名数据通名表对所述开源地名数据集包含的所述通名进行替换处理,以提取出所述开源地名数据集中包含的所述专名的步骤,包括:
在所述地名选取表中分别创建多种语言对应的通名替换后字段;其中,所述通名替换后字段用于存储替换所述通名后的专名;
对于所述开源地名数据集中的每条开源地名数据,基于所述地名数据通名表,判断该开源地名数据中是否存在可替换的所述通名;
如果是,则将该开源地名数据中的所述通名替换为空值,使替换后的该开源地名数据仅包含专名,以提取出替换后的该开源地名数据中包含的所述专名;
根据该开源地名数据所使用的语言,将替换后的该开源地名数据存储至所述通名替换后字段中。
在一种实施方式中,根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名的步骤,包括:
对于所述开源地名数据集中的每条开源地名数据,如果该开源地名数据对应的地名类型,属于预设重点地名类型,则将该开源地名数据包含的所述专名确定为重点专名。
在一种实施方式中,确定所述重点专名对应的地物群范围的步骤,包括:
如果所述重点专名对应的地名为面状地物的地名,则将所述面状地物的区划范围作为地物群范围;
或者,如果所述重点专名对应的地名为点状地物或线状地物的地名,则根据所述点状地物或线状地物所处区域的地名密度确定缓冲距离,并以所述点状地物或线状地物为中心,以所述缓冲距离为半径设置地物群范围;其中,所述缓冲距离与所述地名密度呈负相关。
在一种实施方式中,根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名的步骤,包括:
从所述开源地名数据集包含的所述专名中,提取位于所述地物群范围内的候选专名;
对于每个所述候选专名,确定该候选专名与所述重点专名之间的相似度;
如果所述相似度大于预设相似度阈值,则将该候选专名确定为所述重点专名对应的相关性专名。
在一种实施方式中,基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名的步骤,包括:
在所述地名选取表中创建专名替换后字段;其中,所述专名替换后字段用于存储修正后地名;
根据预设的地物群地物相关性原则,利用所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名;其中,所述地物相关性原则包括地名类型优先级、数据来源选取优先级和语言选取优先级中的一种或多种;
将所述修正后地名存储至所述专名替换后字段中。
第二方面,本发明实施例还提供一种基于地物群的开源地名数据的相关性处理装置,包括:
数据获取模块,用于获取待处理的开源地名数据集;
通名替换模块,用于基于所述开源地名数据集构建地名数据通名表,利用所述地名数据通名表对所述开源地名数据集包含的通名进行替换处理,以提取出所述开源地名数据集中包含的专名;其中,所述专名用于区分不同地理实体,所述通名用于描述地理实体类型;
专名及范围确定模块,用于根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名,以及确定所述重点专名对应的地物群范围;
专名修正模块,用于根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面提供的任一项所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项所述的方法。
本发明实施例提供的一种基于地物群的开源地名数据的相关性处理方法及装置,首先获取待处理的开源地名数据集;然后基于开源地名数据集构建地名数据通名表,利用地名数据通名表对开源地名数据集包含的通名进行替换处理,以提取出开源地名数据集中包含的专名;其中,专名用于区分不同地理实体,通名用于描述地理实体类型;再根据预设重点地名类型,从开源地名数据集包含的专名中确定重点专名,以及确定重点专名对应的地物群范围;最后根据地物群范围从开源地名数据集包含的专名中,确定重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。上述方法利用地名数据通名表对开源地名数据集中的通名进行替换,便于提取专名,以从中确定出重点专名及其对应的相关性专名,对相关性专名对应的地名进行修正,实现了批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等,本发明实施例旨在对数据融合、选取处理后仍然存在的地名相关性问题做进一步的修正,使地名数据在逻辑上更符合实际,以得到更加正确的地名数据。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于地物群的开源地名数据的相关性处理方法的流程示意图;
图2为本发明实施例提供的一种通过FME软件制作地名数据通名表的流程示意图;
图3为本发明实施例提供的一种通过FME软件检索重点专名的示意图;
图4为本发明实施例提供的一种OSM-GNS地名选取表示意图;
图5为本发明实施例提供的另一种基于地物群的开源地名数据的相关性处理方法的流程示意图;
图6为本发明实施例提供的一种“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”字段示意图;
图7为本发明实施例提供的一种通名替换示意图;
图8为本发明实施例提供的一种相似度检索结果示意图;
图9为本发明实施例提供的一种专名替换示意图;
图10为本发明实施例提供的一种基于地物群的开源地名数据的相关性处理装置的结构示意图;
图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,开源地名数据处理方法需要耗费较多人力、物力、时间用于逐个地名核查修改,基于此,本发明实施提供了一种基于地物群的开源地名数据的相关性处理方法及装置,可以实现批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于地物群的开源地名数据的相关性处理方法进行详细介绍,参见图1所示的一种基于地物群的开源地名数据的相关性处理方法的流程示意图,该方法可以包括以下步骤S102至步骤S108:
步骤S102,获取待处理的开源地名数据集。
地名是人赋予某一特定空间位置上自然或人文地理实体的专有名称,其构成形式一般是由专名+通名构成。通名即表示无指位意义的名称,用来区分地理实体类别,如“公安局”、“渔港”、“邮局”、“饭店”等;专名用来区分各个地理实体,体现某种地方性特点,一般位于通名之前。其中,开源地名数据集可以包括多种不同数据源的地名数据。
在一种实施方式中,可以将OSM(OpenStreetMap)数据和GNS(GeoNames)数据作为待处理的开源地名数据集。
步骤S104,基于开源地名数据集构建地名数据通名表,利用地名数据通名表对开源地名数据集包含的通名进行替换处理,以提取出开源地名数据集中包含的专名。
其中,地名数据通名表用于记录可替换的通名。在一种实施方式中,可以对开源地名数据集进行预处理,并针对预处理后的开源地名数据集进行词组统计,以从中确定出高频词组,然后通过人工判读从高频词组中得到可替换的通名,从而构成地名数据通名表;利用地名数据通名表对将开源地名数据集中涉及的通名进行检索,进而针对通名进行替换(诸如替换为指定字符或者替换为空值),以去除通名对后续处理过程的影响,便于提取专名做相关性处理。
步骤S106,根据预设重点地名类型,从开源地名数据集包含的专名中确定重点专名,以及确定重点专名对应的地物群范围。
其中,预设重点地名类型一般包括地名有:各级政区地名;驻地地名;机场地名;火车站地名;铁路地名;高速等重要交通地名;山脉、海洋等大型地理地名;自然文化保护区地名等。重点专名也即属于上述预设重点地名类型的专名。本发明实施例引入地物群的目的在于:地名具有地域性,它依附周边地物衍生,与所依附地物地名共同形成地物群,因此地物群范围可以理解为与重点专名相关性较高的范围。
在一种实施方式中,开源地名数据集中每个地名数据均携带有地名类型,因此可以得到每个专名对应的地名类型,进而可以利用预设重点地名类型从中模糊查询出重点专名,再结合该专名所属的点、线、面性质,确定该专名对应的地物群范围。
步骤S108,根据地物群范围从开源地名数据集包含的专名中,确定重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。
其中,相关性专名可以理解为:在地物群范围内,与重点专名的相似度大于预设相似度阈值的专名。在一种实施方式中,从地物群范围内的各个专名中,筛选出与重点专名的相似度大于预设相似度阈值的相关性专名,并利用重点专名替换该相关性专名对应的地名,即可实现对开源地名数据的修正,得到修正后地名。
本发明实施例提供的基于地物群的开源地名数据的相关性处理装置,利用地名数据通名表对开源地名数据集中的通名进行替换,便于提取专名,以从中确定出重点专名及其对应的相关性专名,对相关性专名对应的地名进行修正,实现了批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等,本发明实施例旨在对数据融合、选取处理后仍然存在的地名相关性问题做进一步的修正,使地名数据在逻辑上更符合实际,以得到更加正确的地名数据。
为便于理解,本发明实施例提供了一种基于地物群的开源地名数据的相关性处理方法的实施方式。
对于前述步骤S102,可以将OSM数据和GNS数据作为待处理的开源地名数据集。
对于前述步骤S104,可以按照如下步骤A1至步骤A3执行基于开源地名数据集构建地名数据通名表的步骤,包括:
步骤A1,对开源地名数据集进行预处理,得到开源地名数据集对应的地名选取表。其中,地名选取表记录有预处理后的开源地名数据集。
在一种实施方式中,获取开源地名数据集之后,对地名数据进行字段整理、非法字符处理、翻译、去重、融合、地名选取等预处理,做好地物群地名相关性处理的数据准备,得到OSM-GNS地名选取表,简称地名选取表,此表为OSM地名数据和GNS地名数据融合之后的成果表。其中,翻译:将外文地名依据地名译写规则翻译为中文地名的过程;去重:主要针对同一来源地名数据,使其同一地名实体的所有要素标识一致,实现同一来源地名资料中一个地名实体只存在一个标识,从而实现地名的去重;融合:针对多套地名数据,使其同一地名实体在各自地名数据中的标识一致,即对同一地名实体,其地名标识在所有资料中的地名标识一致;数据选取:对地名名称、类型、位置依据规则做相关选取。
步骤A2,基于地名选取表确定高频词组。一般情况下,因为专名一般用来指代被代表的具体对象,而通名指代某一类对象,比如:A酒店、B酒店、C酒店,那么A、B、C这三个名称就是各自的专名;而“酒店”,就是通名。专名具有唯一性,通名具有普遍性,因此通名出现的频率较高。根据地名数据中通名出现的频率比较高这一特点,可以通过对地名进行裂变拆分获取数量较多的词组作为通名。
可选的,地名数据通名表的制作,是通过FME软件或者ARGIS软件,筛选地名数据的高频词组,筛选出的高频词组即可作为通名制作地名数据通名表。以FME软件为例,参见图2所示的一种通过FME软件制作地名数据通名表的流程示意图,FME软件的输入为OSM-GNS地名选取表,包括数据初步处理、数据裂变拆分(词组截取)、词组个数统计、获取高频词组等过程。
在实际应用中,地名数据通名表的制作过程中涉及中外文通名。基于此,本发明实施例分别针对中文地名数据和外文地名数据进行处理,以筛选出相应的高频词组,具体可参见如下方式一至方式二:
方式一:对于地名选取表中记录的中文地名数据,对中文地名数据从右向左进行词组截取,并对截取的中文词组进行个数统计,以从中文词组中筛选出第一高频词组。
在一例中,通过对中文地名数据从右往左进行词组截取,得到多个中文词组,统计各个中文词组的个数,用以计算中文词组在所有中文地名数据中出现的频率,根据频率从高到低的顺序选取多个词组作为第一高频词组。
方式二:对于地名选取表中记录的外文地名数据,将外文地名数据拆分为多个外文词组,对拆分的外文词组进行个数统计,以从外文词组中筛选出第二高频词组。
在一例中,外文地名数据可以将一个包含多个词组的地名通过识别“空格”,“_”,”-”(根据区域数据情况而定)等字符,将外文地名数据拆分为多个外文词组,然后对拆分后的外文词组进行个数统计,获取第二高频词组。
步骤A3,基于第一高频词组和/或第二高频词组构建地名数据通名表。在一例中,可以对第一高频词组和第二高频词组进行人工判读,以从中筛选出最终的通名,所有通名构成地名数据通名表。
对于前述步骤S104,可以按照如下步骤A4至步骤A6执行利用地名数据通名表对开源地名数据集包含的通名进行替换处理,以提取出开源地名数据集中包含的专名的步骤,包括:
步骤A4,在地名选取表中分别创建多种语言对应的通名替换后字段。
在一种实施方式中,可以在OSM-GNS地名选取表中新建字段“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”。其中,“通名替换后-中文名称”、“通名替换后-外文名称”也即通名替换后字段,通名替换后字段用于存储替换通名后的专名,是为存储地名中文专名和外文专名而准备;“专名替换后-中文名称”也即专名替换后字段,专名替换后字段用于存储修正后地名,是为存储经地物群地名相关性处理后的正确地名数据而准备。
示例性的,可以通过ARGIS软件,打开OSM-GNS地名选取表,右键选择地名属性表,点击“添加字段”,分别添加“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”三个字段,如下表1所示:
表1
步骤A5,对于开源地名数据集中的每条开源地名数据,基于地名数据通名表,判断该开源地名数据中是否存在可替换的通名。
在一例中,遍历各条开源地名数据,将其与地名数据通名表进行比对,以查找开源地名数据中是否存在可替换的通名。如果存在,则执行步骤A6,如果不存在,则对下一条开源地名数据进行判断。
步骤A6,将该开源地名数据中的通名替换为空值,使替换后的该开源地名数据仅包含专名,以提取出替换后的该开源地名数据中包含的专名;根据该开源地名数据所使用的语言,将替换后的该开源地名数据存储至通名替换后字段中。
在一例中,对开源地名数据中的通名进行替换,以得到仅包含专名的开源地名数据。具体的,根据地名数据通名表,将新建完字段的地名数据的中文通名和英文通名统一替换为空,可以直接得到专名,替换通名后的专名存放入“通名替换后-中文名称”、“通名替换后-外文名称”字段,得到只有中文专名和英文专名的两个字段。通名替换的目的在于:地名相关性处理主要是针对地名专名,因此要在去掉通名影响的情况下,提取专名做相关性处理。
对于前述步骤S106,对于开源地名数据集中的每条开源地名数据,如果该开源地名数据对应的地名类型,属于预设重点地名类型,则可以将该开源地名数据包含的专名确定为重点专名。
在一例中,对地名数据的专名进行重点地名检索,得到专名所对应地名名称,可分为面状重点地名(行政区划名称)和点、线状重点地名(除行政区划以外的重点地名)。 重点地名类型一般包括:各级政区地名;驻地地名;机场地名;火车站地名;铁路地名;高速等重要交通地名;山脉、海洋等大型地理地名;自然文化保护区地名。引入重点地名的目的在于:地名不是独立存在的,它依附周边地物衍生,组成地名地物群,而能够衍生地名的地物一般是比较重要的地物,如以上罗列的八种类型,因此地物群名称一般来自于重点地名。
在一种具体的实施方式中,通过FME软件,依据以上八种重点地名类型,检索步骤A6得到的“通名替换后-中文名称”、“通名替换后-外文名称”字段内的专名名称,采用FME-tester转换器,根据类型字段对八种重点地名进行模糊查询,获取重点地名。获得的重点地名一般分两种情况:(1)地名本身为具有确定范围的面状地物,如村、镇、区(县)、市、省等行政区划范围;(2)地名本身不具有确定范围,为点状或者线状地物,如某一标志性建筑、文物建筑等具有重要意义的建筑,或者山峰、河流等。
示例性的,参见图3所示的一种通过FME软件检索重点专名的示意图,首先输入OSM-GNS地名选取表,ester_2参数表中 “右值”即是重点地名的八种重点地名类型。
进一步的,可直接将重点专名所对应地名名称作为地物群名称。
本发明实施例引入地物群的目的在于:地名具有地域性,它依附周边地物衍生,与所依附地物地名共同形成地物群。如由居民地衍生的周边地名(西安市-西安火车站、西安汽车站、西安交通大学、西安中医院);由地理地名衍生的居民地地名(如:永乐江-永乐江镇;梁山-梁山县;大雁塔-雁塔区、大雁塔街道、雁影路;青龙寺-青龙寺村)。 由于不同开源地名资料受生产年代、译写方式等的影响出现诸如专名音同字不同(实则为同字)等错误,而此类问题在融合、选取时又因通名不同不满足处理条件,故在地名融合后需根据地理位置,还需作地名相关性的修改工作。例如以山西省“平遥县”为地名地物群,那么根据地名地域性特征,平遥县内存在以“平遥”为专名的地名,例如“平遥中学”、“平遥站”、 “平遥饭店”等等。因为获取地名数据的来源众多,在地名翻译等制作过程中很有可能出现音同字不同等的情况,如“平遥饭店”和“平窑公园”,那么根据地名地域性特征“平窑公园”就可修改为“平遥公园”。这一现象在外文地名制作过程中尤为常见,外文地名在翻译的时候会出现音同字不同,一般存在两种情况:一,地名外文名称只有专名,没有通名,(如:外文名称相同,中文名称存在差异),需按地物相关性规则修改中文名称;二,地名外文名称是全称,既有专名又有通名,(如:部分专名相同(部分相同),中文名称存在差异)需按地物相关性规则修改中文名称。
当数据量较大、地物群较多时,逐个地名核对修改耗费人力、物力、时间,那么用本方案提到的方法即可快速、有效地得到具有正确专名的地名。
对于前述步骤S106,可以按照如下步骤B1至步骤B2执行确定重点专名对应的地物群范围的步骤,包括:
步骤B1,如果重点专名所对应地名为面状地物的地名,则将面状地物的区划范围作为地物群范围。
在一例中,对于面状地物(行政区划),因其本身具有确定的范围(行政区划范围),可直接引用作为地物群范围,提取范围内的专名。
步骤B2,如果重点专名所对应地名为点状地物或线状地物的地名,则根据点状地物或线状地物所处区域的地名密度确定缓冲距离,并以点状地物或线状地物为中心,以缓冲距离为半径设置地物群范围;其中,缓冲距离与地名密度呈负相关。
在一例中,对于点、线状地物(除行政区划以外的重点地名地物),则通过缓冲距离设置,取其周边一定距离的缓冲区域,作为地物群范围,提取范围内的地名数据;此处确定地物群范围的目的在于根据地名的地域性特点,设定后续作业区域,指定每一个地物群地物相关性处理范围。
缓冲距离设置即进行一定距离的缓冲区分析,位于缓冲区范围内的地名,即可根据地名相关性进行相应修改。缓冲距离是根据地物群范围内的地名密度确定,一般地名密度高则缓冲距离短,地名密度低则缓冲距离长。缓冲距离具体取值是分析不同缓冲距离后的经验获得值,当缓冲距离增加后,相关地名不再批量增加为止。缓冲区设置的目的在于确定点、线状地物地名相关性处理的具体范围。
对于前述步骤S108,可以按照如下步骤C1至步骤C2执行根据地物群范围从开源地名数据集包含的专名中,确定重点专名对应的相关性专名的步骤,包括:
步骤C1,从开源地名数据集包含的专名中,提取位于地物群范围内的候选专名。
在一例中,可以通过ARCGIS软件,根据位置筛选工具,筛选地物群范围内的专名,并单独导出筛选好的专名,作为下一步名称相似度检索的数据。
步骤C2,对于每个候选专名,确定该候选专名与重点专名之间的相似度,如果相似度大于预设相似度阈值,则将该候选专名确定为重点专名对应的相关性专名。
在一例中,将提取出的候选专名分别与对应地物群名称(即重点专名)做相似度检索,二者相似度达到80%,则认为两个专名为同一专名,二者相似度低于80%,则认为两个专名为不同专名。在具体实现时,将相似度达到80%的相关性专名确定为与地物群相关性地名。
名称相似度判断:因地名资料受时限、译写规则的不同,资料源之间会存在音似但个别字母不同、音同声调不一致、音同但字不同、音节语序不同、地名细化程度不同、地名是其中的部分等情况。此类问题在融合处理中经过实验验证一般相似度在80%以上,可以判定为需要融合。在地物群地名相关性处理时继续延用融合相似度验证值80%及以上,作为与重点专名相似度检索的参考值。
其中,融合就是将不同源的两条地名数据融合为一条地名数据。示例性的, OSM中存在地名:舍甫琴科,GNS中存在地名:舍甫琴柯,两个地名的距离为77m。判断两个地名为一个实体,故将两个地名赋值为同一个dmid,将两个地名融合为一条地名。
对于前述步骤S108,可以按照如下步骤C3至步骤C5执行基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名的步骤,包括:
步骤C3,在地名选取表中创建专名替换后字段。其中,专名替换后字段用于存储修正后的正确地名。
步骤C4,根据预设的地物群地物相关性原则,利用重点专名对相关性专名对应的地名进行修正,以得到修正后地名;其中,地物相关性原则包括地名类型优先级、数据来源选取优先级和语言选取优先级中的一种或多种。
在一例中,根据地物群名称进行地名的专名替换,得到具有正确专名的地名数据。相似度低于80%的地名,则认为是地物群不相关地名,保留原地名专名。最终得到正确的地名数据。
步骤C5,将修正后地名存储至专名替换后字段中。
综上所述,本发明实施例至少具有以下特点:
(1)通过地名的地域特点,进一步提高融合后地名数据的正确性;
(2)当地名数据量较大、地物群较多时,逐个地名核查修改耗费人力、物力、时间,本方案提到的方法可批量处理地名数据,具有较高效率;
(3)操作简单,可快速、有效地得到具有正确专名的地名。
为便于理解,本发明实施例提供了一种基于地物群的开源地名数据的相关性处理方法的应用示例,参见图5所示的另一种基于地物群的开源地名数据的相关性处理方法的流程示意图,该方法主要包括以下步骤:
(a)数据准备。
示例性的,本发明实施例以某地区GNS、OSM开源数据为例,首先对开源地名数据进行预处理(包括字段整理、非法字符处理、翻译等)、去重、融合、地名选取,得到如图4所示的OSM-GNS地名选取表。
(b)地名数据通名表制作。
示例性的,提取地名数据高频词作为通名,诸如下表2所示:
表2
中文通名 | 外文通名 |
岬 | Mys |
半岛 | Poluostrov |
冬营地 | Zimovka |
山 | Gora |
湖 | Ozero |
站 | Stantsiya |
机场 | Airport |
沙丘 | Barkhan |
(c)地名数据属性表新建字段“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”。
示例性的,地名数据属性表新建字段“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”,因ARCGIS中文名称过长不显示所以分别用字母替代:th_tm_cn/th_tm_en /th_zm_cn,诸如图6所示的一种“通名替换后-中文名称”、“通名替换后-外文名称”、“专名替换后-中文名称”字段示意图。
(d)通名替换。
示例性的,根据通名表,以下数据中中文通名有“站”、“湖”,外文通名有:“Stantsiya”“Ozero”,将通名替换为空,得到只有专名的中文地名和外文地名,存放于字段“th_tm_cn”和“th_tm_en”中,参见图7所示的一种通名替换示意图,其中:cn代表中文名称,en代表英文名称。进一步的,通过 ARCGIS 筛选 th tm cn (th tm en) 为空值的行,统一将cn、en) 列对应的值赋值到 th tm cn (th tm en) 空值行。
此步操作原因: 地名 (上图 cn 列和 en 列所对应的名称) 中有些名称原本只有专名没有通名,如上图 FID23272 对应 cn 名称为“卡尔马科尔”,FID48222对应 cn 名称为“塌拉普”。通名替换步骤只会将具备通名的地名替换通名为空后把剩余专名存放于“通名替换后字段”中,而这些没有通名的名称则不会被存放于“通名替换后字段”中,因此,这部分只有专名的地名无法参与后期重点专名相关性检索以及相关性处理,因此,需要在通名替换步骤完成后,将其值直接赋子th tm cn。
(e)重点地名检索。
示例性的,根据八类重点地名,本次检索到的重点地名为铁路地名:“塔拉普站”和“卡尔马科尔站”,以这两个重点地名分别作为地物群名称,进行地名相关性处理。
(f)点、线状重点地物名称(除行政区划以外的重点地名):缓冲距离设置;提取缓冲区范围;面状重点地物名称(行政区划名称):提取行政区划范围;
示例性的,因本次筛选出的重点地名车站为点状地物地名,因此需设置缓冲距离,获取缓冲区范围。因本次所选样例数据较少,缓冲距离设置为10km往后筛选地名数不再增加,因此确定本次筛选缓冲距离为10km,那么 “塔拉普站”和“卡尔马科尔站”各自周边10km缓冲面即是地物群范围。
(g)提取地物群(重点地名)范围内的非重点地名(也即,前述相关性专名)。
示例性的,提取10km缓冲区范围内的地名,根据缓冲面,利用ARCGIS进行位置选择,选取地物群范围内的非重点地名。
(h)与重点地名名称相似度检索。
示例性的,将各自提取出的地名数据与地物群名称(重点地名)塔拉普站”和“卡尔马科尔站”做中文相似度或者外文相似度检索,提取相似度均达到80%的地名。参见图8所示的一种相似度检索结果示意图,本次检索到与“塔拉普站”地物群外文相似度80%以上的地名有“塌拉普”,与“卡尔马科尔站”中文相似度80%以上的地名有 “卡尔梅科尔湖”。
(i)相似度是否达到80%;如果是,执行(k);如果否(j)。
(j)保留原地名专名。
(k)专名统一替换,诸如图9所示的一种专名替换示意图。示例性的,分别用“塔拉普站”和“卡尔马科尔站”两个地物群名称专名替换原来的地名专名,即得到具有正确专名的地名数据,存放在th_zm_cn字段中:“塔拉普”、“卡尔马科尔湖”。
本发明实施例提供基于地物群的地名数据相关性处理方法,旨在对数据融合、选取处理后仍然存在的地名相关性问题做进一步的修正,使地名数据在逻辑上更符合实际,以得到更加正确的地名数据。
在前述实施例的基础上,本发明实施例提供了一种基于地物群的开源地名数据的相关性处理装置,参见图10所示的一种基于地物群的开源地名数据的相关性处理装置的结构示意图,该装置主要包括以下部分:
数据获取模块1002,用于获取待处理的开源地名数据集;
通名替换模块1004,用于基于开源地名数据集构建地名数据通名表,利用地名数据通名表对开源地名数据集包含的通名进行替换处理,以提取出开源地名数据集中包含的专名;其中,专名用于区分不同地理实体,通名用于描述地理实体类型;
专名及范围确定模块1006,用于根据预设重点地名类型,从开源地名数据集包含的专名中确定重点专名,以及确定重点专名对应的地物群范围;
专名修正模块1008,用于根据地物群范围从开源地名数据集包含的专名中,确定重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名。
本发明实施例提供的基于地物群的开源地名数据的相关性处理装置,利用地名数据通名表对开源地名数据集中的通名进行替换,便于提取专名,以从中确定出重点专名及其对应的相关性专名,对相关性专名对应的地名进行修正,实现了批量处理开源地名数据,从而显著提高处理开源地名数据的效率,以及显著降低处理开源地名数据所耗费的人力成本、物力成本等,本发明实施例旨在对数据融合、选取处理后仍然存在的地名相关性问题做进一步的修正,使地名数据在逻辑上更符合实际,以得到更加正确的地名数据。
在一种实施方式中,通名替换模块1004还用于:
对开源地名数据集进行预处理,得到开源地名数据集对应的地名选取表;其中,地名选取表记录有预处理后的开源地名数据集;
对于地名选取表中记录的中文地名数据,对中文地名数据从右向左进行词组截取,并对截取的中文词组进行个数统计,以从中文词组中筛选出第一高频词组;
以及,对于地名选取表中记录的外文地名数据,将外文地名数据拆分为多个外文词组,对拆分的外文词组进行个数统计,以从外文词组中筛选出第二高频词组;
基于第一高频词组和/或第二高频词组构建地名数据通名表;其中,地名数据通名表用于记录可替换的通名。
在一种实施方式中,通名替换模块1004还用于:
在地名选取表中分别创建多种语言对应的通名替换后字段;其中,通名替换后字段用于存储替换通名后的专名;
对于开源地名数据集中的每条开源地名数据,基于地名数据通名表,判断该开源地名数据中是否存在可替换的通名;
如果是,则将该开源地名数据中的通名替换为空值,使替换后的该开源地名数据仅包含专名,以提取出替换后的该开源地名数据中包含的专名;
根据该开源地名数据所使用的语言,将通名替换后的专名存储至所述通名替换后字段中。
在一种实施方式中,专名及范围确定模块1006还用于:
对于开源地名数据集中的每条开源地名数据,如果该开源地名数据对应的地名类型,属于预设重点地名类型,则将该开源地名数据包含的专名确定为重点专名。
在一种实施方式中,专名及范围确定模块1006还用于:
如果所述重点专名对应的地名为面状地物的地名,则将所述面状地物的区划范围作为地物群范围;
或者,如果所述重点专名对应的地名为点状地物或线状地物的地名,则根据所述点状地物或线状地物所处区域的地名密度确定缓冲距离,并以所述点状地物或线状地物为中心,以所述缓冲距离为半径设置地物群范围;其中,所述缓冲距离与所述地名密度呈负相关。
在一种实施方式中,专名修正模块1008还用于:
从开源地名数据集包含的专名中,提取位于地物群范围内的候选专名;
对于每个候选专名,确定该候选专名与重点专名之间的相似度;
如果相似度大于预设相似度阈值,则将该候选专名确定为重点专名对应的相关性专名。
在一种实施方式中,专名修正模块1008还用于:
在地名选取表中创建专名替换后字段;其中,专名替换后字段用于存储修正后地名;
根据预设的地物群地物相关性原则,利用重点专名对相关性专名对应的地名进行修正,以得到修正后地名;其中,地物相关性原则包括地名类型优先级、数据来源选取优先级和语言选取优先级中的一种或多种;
将修正后地名存储至专名替换后字段中。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法 。
图11为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器110,存储器111,总线112和通信接口113,所述处理器110、通信接口113和存储器111通过总线112连接;处理器110用于执行存储器111中存储的可执行模块,例如计算机程序。
其中,存储器111可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口113(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线112可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器111用于存储程序,所述处理器110在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器110中,或者由处理器110实现。
处理器110可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器110中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器111,处理器110读取存储器111中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (5)
1.一种基于地物群的开源地名数据的相关性处理方法,其特征在于,包括:
获取待处理的开源地名数据集;
基于所述开源地名数据集构建地名数据通名表,利用所述地名数据通名表对所述开源地名数据集包含的通名进行替换处理,以提取出所述开源地名数据集中包含的专名;其中,所述专名用于区分不同地理实体,所述通名用于描述地理实体类型;
根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名,以及确定所述重点专名对应的地物群范围;
根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名;
基于所述开源地名数据集构建地名数据通名表的步骤,包括:对所述开源地名数据集进行预处理,得到所述开源地名数据集对应的地名选取表;其中,所述地名选取表记录有预处理后的所述开源地名数据集;对于所述地名选取表中记录的中文地名数据,对所述中文地名数据从右向左进行词组截取,并对截取的中文词组进行个数统计,以从所述中文词组中筛选出第一高频词组;以及,对于所述地名选取表中记录的外文地名数据,将所述外文地名数据拆分为多个外文词组,对拆分的所述外文词组进行个数统计,以从所述外文词组中筛选出第二高频词组;基于所述第一高频词组和/或所述第二高频词组构建地名数据通名表;其中,所述地名数据通名表用于记录可替换的通名;
利用所述地名数据通名表对所述开源地名数据集包含的所述通名进行替换处理,以提取出所述开源地名数据集中包含的所述专名的步骤,包括:在所述地名选取表中分别创建多种语言对应的通名替换后字段;其中,所述通名替换后字段用于存储替换所述通名后的专名;对于所述开源地名数据集中的每条开源地名数据,基于所述地名数据通名表,判断该开源地名数据中是否存在可替换的所述通名;如果是,则将该开源地名数据中的所述通名替换为空值,使替换后的该开源地名数据仅包含专名,以提取出替换后的该开源地名数据中包含的所述专名;根据该开源地名数据所使用的语言,将通名替换后的专名存储至所述通名替换后字段中;
确定所述重点专名对应的地物群范围的步骤,包括:如果所述重点专名对应的地名为面状地物的地名,则将所述面状地物的区划范围作为地物群范围;或者,如果所述重点专名对应的地名为点状地物或线状地物的地名,则根据所述点状地物或线状地物所处区域的地名密度确定缓冲距离,并以所述点状地物或线状地物为中心,以所述缓冲距离为半径设置地物群范围;其中,所述缓冲距离与所述地名密度呈负相关;
根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名的步骤,包括:从所述开源地名数据集包含的所述专名中,提取位于所述地物群范围内的候选专名;对于每个所述候选专名,确定该候选专名与所述重点专名之间的相似度;如果所述相似度大于预设相似度阈值,则将该候选专名确定为所述重点专名对应的相关性专名;
基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名的步骤,包括:在所述地名选取表中创建专名替换后字段;其中,所述专名替换后字段用于存储修正后地名;根据预设的地物群地物修正原则,利用所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名;其中,所述地物修正原则包括地名类型优先级、数据来源选取优先级和语言选取优先级中的一种或多种;将所述修正后地名存储至所述专名替换后字段中。
2.根据权利要求1所述的基于地物群的开源地名数据的相关性处理方法,其特征在于,根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名的步骤,包括:
对于所述开源地名数据集中的每条开源地名数据,如果该开源地名数据对应的地名类型,属于预设重点地名类型,则将该开源地名数据包含的所述专名确定为重点专名。
3.一种基于地物群的开源地名数据的相关性处理装置,其特征在于,包括:
数据获取模块,用于获取待处理的开源地名数据集;
通名替换模块,用于基于所述开源地名数据集构建地名数据通名表,利用所述地名数据通名表对所述开源地名数据集包含的通名进行替换处理,以提取出所述开源地名数据集中包含的专名;其中,所述专名用于区分不同地理实体,所述通名用于描述地理实体类型;
专名及范围确定模块,用于根据预设重点地名类型,从所述开源地名数据集包含的所述专名中确定重点专名,以及确定所述重点专名对应的地物群范围;
专名修正模块,用于根据所述地物群范围从所述开源地名数据集包含的所述专名中,确定所述重点专名对应的相关性专名,并基于所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名;
通名替换模块还用于:对所述开源地名数据集进行预处理,得到所述开源地名数据集对应的地名选取表;其中,所述地名选取表记录有预处理后的所述开源地名数据集;对于所述地名选取表中记录的中文地名数据,对所述中文地名数据从右向左进行词组截取,并对截取的中文词组进行个数统计,以从所述中文词组中筛选出第一高频词组;以及,对于所述地名选取表中记录的外文地名数据,将所述外文地名数据拆分为多个外文词组,对拆分的所述外文词组进行个数统计,以从所述外文词组中筛选出第二高频词组;基于所述第一高频词组和/或所述第二高频词组构建地名数据通名表;其中,所述地名数据通名表用于记录可替换的通名;
通名替换模块还用于:在所述地名选取表中分别创建多种语言对应的通名替换后字段;其中,所述通名替换后字段用于存储替换所述通名后的专名;对于所述开源地名数据集中的每条开源地名数据,基于所述地名数据通名表,判断该开源地名数据中是否存在可替换的所述通名;如果是,则将该开源地名数据中的所述通名替换为空值,使替换后的该开源地名数据仅包含专名,以提取出替换后的该开源地名数据中包含的所述专名;根据该开源地名数据所使用的语言,将通名替换后的专名存储至所述通名替换后字段中;
专名及范围确定模块还用于:如果所述重点专名对应的地名为面状地物的地名,则将所述面状地物的区划范围作为地物群范围;或者,如果所述重点专名对应的地名为点状地物或线状地物的地名,则根据所述点状地物或线状地物所处区域的地名密度确定缓冲距离,并以所述点状地物或线状地物为中心,以所述缓冲距离为半径设置地物群范围;其中,所述缓冲距离与所述地名密度呈负相关;
专名修正模块还用于:从所述开源地名数据集包含的所述专名中,提取位于所述地物群范围内的候选专名;对于每个所述候选专名,确定该候选专名与所述重点专名之间的相似度;如果所述相似度大于预设相似度阈值,则将该候选专名确定为所述重点专名对应的相关性专名;
专名修正模块还用于:在所述地名选取表中创建专名替换后字段;其中,所述专名替换后字段用于存储修正后地名;根据预设的地物群地物修正原则,利用所述重点专名对所述相关性专名对应的地名进行修正,以得到修正后地名;其中,所述地物修正原则包括地名类型优先级、数据来源选取优先级和语言选取优先级中的一种或多种;将所述修正后地名存储至所述专名替换后字段中。
4.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至2任一项所述的方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至2任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070587.7A CN117592462B (zh) | 2024-01-18 | 2024-01-18 | 基于地物群的开源地名数据的相关性处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410070587.7A CN117592462B (zh) | 2024-01-18 | 2024-01-18 | 基于地物群的开源地名数据的相关性处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117592462A CN117592462A (zh) | 2024-02-23 |
CN117592462B true CN117592462B (zh) | 2024-04-16 |
Family
ID=89915400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410070587.7A Active CN117592462B (zh) | 2024-01-18 | 2024-01-18 | 基于地物群的开源地名数据的相关性处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117592462B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829173A (zh) * | 2019-01-21 | 2019-05-31 | 中国测绘科学研究院 | 一种英文地名翻译方法及装置 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
CN113807105A (zh) * | 2021-07-22 | 2021-12-17 | 中国测绘科学研究院 | 一种法语地名机器翻译方法 |
CN114091454A (zh) * | 2021-11-29 | 2022-02-25 | 重庆市地理信息和遥感应用中心 | 一种互联网文本中地名信息提取及空间定位方法 |
WO2022057116A1 (zh) * | 2020-09-15 | 2022-03-24 | 南京文图景信息科技有限公司 | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 |
CN115455986A (zh) * | 2022-02-28 | 2022-12-09 | 中国测绘科学研究院 | 一种西班牙语地名翻译方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8037078B2 (en) * | 2003-03-18 | 2011-10-11 | Nokia Corporation | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
-
2024
- 2024-01-18 CN CN202410070587.7A patent/CN117592462B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829173A (zh) * | 2019-01-21 | 2019-05-31 | 中国测绘科学研究院 | 一种英文地名翻译方法及装置 |
WO2022057116A1 (zh) * | 2020-09-15 | 2022-03-24 | 南京文图景信息科技有限公司 | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
CN113807105A (zh) * | 2021-07-22 | 2021-12-17 | 中国测绘科学研究院 | 一种法语地名机器翻译方法 |
CN114091454A (zh) * | 2021-11-29 | 2022-02-25 | 重庆市地理信息和遥感应用中心 | 一种互联网文本中地名信息提取及空间定位方法 |
CN115455986A (zh) * | 2022-02-28 | 2022-12-09 | 中国测绘科学研究院 | 一种西班牙语地名翻译方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
新疆自然地名特征;聂学艳;阎顺;;干旱区地理;20100315(第02期);第306-312页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117592462A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN101350012A (zh) | 一种地址匹配的方法和系统 | |
CN107463711B (zh) | 一种数据的标签匹配方法及装置 | |
CN108228825A (zh) | 一种基于分词的用户地址数据清洗方法 | |
Bouillot et al. | How and why exploit tweet’s location information | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
Owen et al. | Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. | |
CN115470307A (zh) | 一种地址匹配方法及装置 | |
CN114153898A (zh) | 梳理数据库表间关系的方法、装置及应用 | |
CN112905728A (zh) | 一种面向多源地名数据的高效融合与检索系统及方法 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN111859956B (zh) | 一种用于金融行业的地址分词方法 | |
CN117592462B (zh) | 基于地物群的开源地名数据的相关性处理方法及装置 | |
CN110232160B (zh) | 兴趣点变迁事件检测方法、装置及存储介质 | |
CN103970732A (zh) | 新词译文的挖掘方法和装置 | |
CN101887462A (zh) | 一种可持续优化地名数据库快速分级配准方法 | |
CN115062108A (zh) | 一种获取标准化房产地址的方法 | |
TWI684950B (zh) | 物種數據解析方法、系統及電腦程式產品 | |
CN110968691A (zh) | 司法热点确定方法及装置 | |
CN113641642B (zh) | 一种基于shp格式调取地形图数据的方法及系统 | |
CN114443728B (zh) | 一种基于Elasticsearch的检测报告搜索方法及装置 | |
CN111221846B (zh) | 一种sql语句的自动翻译方法及装置 | |
CN110909533B (zh) | 资源主题判定方法和系统 | |
CN108614828B (zh) | 基于规则模板的语料分析方法及语料分析装置 | |
CN116501940A (zh) | 多源兴趣点匹配方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |