CN113837634A

CN113837634A - 一种基于相似度的行政区划匹配方法及装置

Info

Publication number: CN113837634A
Application number: CN202111150065.0A
Authority: CN
Inventors: 姜东晓; 崔德冠; 孙海林; 杨经海
Original assignee: Shenzhen Yunlu Information Technology Co ltd
Current assignee: Shenzhen Yunlu Information Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-24

Abstract

本发明公开了一种基于相似度的行政区划匹配方法及装置，其中该方法包括：确定多个标准行政区划信息；确定待匹配行政区划信息；计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度；将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。可见，本发明一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。

Description

一种基于相似度的行政区划匹配方法及装置

技术领域

本发明涉及数据匹配技术领域，尤其涉及一种基于相似度的行政区划匹配方法及装置。

背景技术

物流行业中，物流配送地址的精确识别是至关重要的一步。配送地址一般由多级行政区划名称(如：省、市、区、街道)+详细地址组成，如：广东省深圳市南山区科技XXX路X号XX大厦。目前的不少电商平台在消费者下单时均提供标准的行政区划地址供消费者选择，以保障行政区划地址的正确性。但由于不同平台数据的差异性、下单方式的多样性以及历史地址的复用等因素的影响，造成电商平台最终形成的配送地址中行政区划名称的多样性，出现各种行政区划不规范的问题，如：(1)名称多样性，如“广东省”和“广东”、“广西壮族自治区”和“广西”；(2)名称错位，如将城市名称写成省份名称或者区县名称，如“深圳市广东省南山区”；(3)名称缺失，如城市名称的缺失或者省份名称的缺失，如“广东省福田区”，缺少了“深圳市”；(4)名称错误，如“上海市黄浦区”写成“上海市黄埔区”；(5)名称重复，如“广东省广东省深圳市宝安区”等。而现有技术在解决上述名称不规范的问题时，并没有提出较为简洁且高效的方案，可见现有技术存在缺陷，亟待解决。

发明内容

本发明所要解决的技术问题在于，提供一种基于相似度的行政区划匹配方法及装置，一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。

为了解决上述技术问题，本发明第一方面公开了一种基于相似度的行政区划匹配方法，所述方法包括：

确定多个标准行政区划信息；

确定待匹配行政区划信息；

计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度；

将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：

根据所述目标行政区划信息，修正所述待匹配行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述目标行政区划信息，修正所述待匹配行政区划信息，包括：

计算所述目标行政区划信息与所述待匹配行政区划信息的差别程度；

若所述差别程度大于预设的差别阈值，则执行修正操作；

以及，所述执行修正操作，包括：

将所述待匹配行政区划信息替换为所述目标行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述确定多个标准行政区划信息，包括：

获取多个标准行政区划名称；

将所述多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息，以得到多个所述标准行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述确定待匹配行政区划信息，包括：

获取初始行政区划信息；

对所述初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述对所述初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息，包括：

对所述初始行政区划信息中的特殊字符进行去除，以得到待匹配行政区划信息；所述特殊字符包括空格符号、标点符号和乱码符号中的至少一种；

和/或，

对所述初始行政区划信息中的英文字符和/或数字字符进行去除，以得到待匹配行政区划信息；

和/或，

识别出所述初始行政区划信息中的多个层级的行政区划信息；

将所述多个层级的行政区划信息按照层级顺序进行拼接，以得到待匹配行政区划信息。

作为一种可选的实施方式，在本发明第一方面中，所述计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度，包括：

基于Sorensen相似度算法，计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度。

作为一种可选的实施方式，在本发明第一方面中，基于以下公式计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度：

其中，s₁和s₂分别为所述待匹配行政区划信息与任一所述标准行政区划信息，sim(s₁,s₂)为s₁和s₂的相似度，set(s₁)为s₁的单字集合，len(set(s₁))为set(s₁)的长度，set(s₂)为s₂的单字集合，len(set(s₂))为set(s₂)的长度。

本发明第二方面公开了一种基于相似度的行政区划匹配装置，其包括：

第一确定模块，用于确定多个标准行政区划信息；

第二确定模块，用于确定待匹配行政区划信息；

计算模块，用于计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度；

第三确定模块，用于将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。

作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

修正模块，用于根据所述目标行政区划信息，修正所述待匹配行政区划信息。

作为一种可选的实施方式，在本发明第二方面中，所述修正模块根据所述目标行政区划信息，修正所述待匹配行政区划信息的具体方式，包括：

若所述差别程度大于预设的差别阈值，则执行修正操作；

以及，所述修正模块执行修正操作的具体方式，包括：

将所述待匹配行政区划信息替换为所述目标行政区划信息。

作为一种可选的实施方式，在本发明第二方面中，所述第一确定模块确定多个标准行政区划信息的具体方式，包括：

获取多个标准行政区划名称；

作为一种可选的实施方式，在本发明第二方面中，所述第二确定模块确定待匹配行政区划信息的具体方式，包括：

获取初始行政区划信息；

作为一种可选的实施方式，在本发明第二方面中，所述第二确定模块对所述初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息的具体方式，包括：

和/或，

作为一种可选的实施方式，在本发明第二方面中，所述计算模块计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度的具体方式，包括：

作为一种可选的实施方式，在本发明第二方面中，所述计算模块基于以下公式计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度：

本发明第三方面公开了另一种基于相似度的行政区划匹配装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的基于相似度的行政区划匹配方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，确定多个标准行政区划信息；确定待匹配行政区划信息；计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度；将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。可见，本发明通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果，一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于相似度的行政区划匹配方法的流程示意图；

图2是本发明实施例公开的一种基于相似度的行政区划匹配装置的结构示意图；

图3是本发明实施例公开的另一种基于相似度的行政区划匹配装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于相似度的行政区划匹配方法及装置，通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果，一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于相似度的行政区划匹配方法的流程示意图。其中，图1所描述的方法可以应用于相应的匹配处理终端、匹配处理设备或匹配处理服务器中，且该服务器可以是本地服务器，也可以是云服务器。如图1所示，该基于相似度的行政区划匹配方法可以包括以下操作：

101、确定多个标准行政区划信息。

102、确定待匹配行政区划信息。

103、计算待匹配行政区划信息与任一标准行政区划信息之间的相似度。

104、将多个标准行政区划信息中与待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。

可见，实施本发明实施例所描述的方法通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果，一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。

作为一种可选的实施方式，该方法还包括：

根据目标行政区划信息，修正待匹配行政区划信息。

可见，通过实施该可选的实施方式，能够根据目标行政区划信息，修正待匹配行政区划信息，使得错误的待匹配行政区划信息得到修正，从而使得可以得到正确的行政区划信息。

作为一种可选的实施方式，上述步骤中的，根据目标行政区划信息，修正待匹配行政区划信息，包括：

计算目标行政区划信息与待匹配行政区划信息的差别程度。

若差别程度大于预设的差别阈值，则执行修正操作。

可选的，差别程度可以为字符差别程度，例如计算目标行政区划信息与待匹配行政区划信息的不同的字符的数量。可选的，差别阈值为字符数量阈值，在一些可选的情况下，可以将差别阈值设置为0，从而使得只要目标行政区划信息与待匹配行政区划信息不同，就执行修正操作。

可见，通过实施该可选的实施方式，能够计算目标行政区划信息与待匹配行政区划信息的差别程度，并在差别程度大于预设的差别阈值时则执行修正操作，从而使得可以得到正确的行政区划信息。

作为一种可选的实施方式，上述步骤中的，执行修正操作，包括：

将待匹配行政区划信息替换为目标行政区划信息。

可见，通过实施该可选的实施方式，能够将待匹配行政区划信息替换为目标行政区划信息，从而使得可以得到正确的行政区划信息。

作为一种可选的实施方式，上述步骤中的，确定多个标准行政区划信息，包括：

获取多个标准行政区划名称。

将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息，以得到多个标准行政区划信息。

可见，通过实施该可选的实施方式，能够将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息，从而可以确定出精确的标准行政区划信息，以便于后续的匹配。

作为一种可选的实施方式，上述步骤中的，确定待匹配行政区划信息，包括：

获取初始行政区划信息。

对初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息。

可见，通过实施该可选的实施方式，能够对初始行政区划信息执行数据预处理操作，从而可以确定出准确的待匹配行政区划信息，以便于后续的匹配。

作为一种可选的实施方式，上述步骤中的，对初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息，包括：

对初始行政区划信息中的特殊字符进行去除，以得到待匹配行政区划信息。特殊字符包括空格符号、标点符号和乱码符号中的至少一种。

可见，通过实施该可选的实施方式，能够对初始行政区划信息中的特殊字符进行去除，从而可以确定出准确的待匹配行政区划信息，以便于后续的匹配。

对初始行政区划信息中的英文字符和/或数字字符进行去除，以得到待匹配行政区划信息。

可见，通过实施该可选的实施方式，能够对初始行政区划信息中的英文字符和/或数字字符进行去除，从而可以确定出核心的待匹配行政区划信息，以便于后续的匹配。

识别出初始行政区划信息中的多个层级的行政区划信息。

将多个层级的行政区划信息按照层级顺序进行拼接，以得到待匹配行政区划信息。

可见，通过实施该可选的实施方式，能够将初始行政区划信息中的多个层级的行政区划信息按照层级顺序进行拼接，以得到待匹配行政区划信息，从而可以确定出准确的待匹配行政区划信息，以便于后续的匹配。

作为一种可选的实施方式，上述步骤中的，计算待匹配行政区划信息与任一标准行政区划信息之间的相似度，包括：

基于Sorensen相似度算法，计算待匹配行政区划信息与任一标准行政区划信息之间的相似度。

作为一种可选的实施方式，基于以下公式计算待匹配行政区划信息与任一标准行政区划信息之间的相似度：

其中，s₁和s₂分别为待匹配行政区划信息与任一标准行政区划信息，sim(s₁,s₂)为s₁和s₂的相似度，set(s₁)为s₁的单字集合，len(set(s₁))为set(s₁)的长度，set(s₂)为s₂的单字集合，len(set(s₂))为set(s₂)的长度。

可见，通过实施该可选的实施方式，能够基于上述Sorensen相似度算法公式，计算待匹配行政区划信息与任一标准行政区划信息之间的相似度，从而可以确定出准确的相似度信息，以便于后续的计算或修正。

本实施例还公开了一个上述行政区划匹配方法的一个具体的实施方案，该方案为一种基于相似度匹配的行政区划名称校验方法，其目的在于：(1)实现一种更加简单、便捷的行政区划名称识别方法，输出标准的行政区划名称；(2)不需要引入其他额外的信息(如POI、统一社会信用代码等)，便于在多个应用领域推广；(3)更高的准确率和计算效率。

具体的，该方案可以包括以下步骤：

步骤1：构建标准的全国行政区划名称表，其中包含了行政区划名称的层级关系，如下表示例。并将多层行政区划名称拼接为一个字段，如下表的“conbine_name”为四级行政区划名称合并后的字段。

province	city	area	town	conbine_name
					广东省	深圳市	福田区	福田保税区	广东省深圳市福田区福田保税区
广东省	深圳市	南山区	南头街道	广东省深圳市南山区南头街道
					广东省	深圳市	南山区	南山街道	广东省深圳市南山区南山街道
广东省	深圳市	南山区	沙河街道	广东省深圳市南山区沙河街道
					广东省	深圳市	南山区	蛇口街道	广东省深圳市南山区蛇口街道
广东省	深圳市	南山区	招商街道	广东省深圳市南山区招商街道
					广东省	深圳市	南山区	粤海街道	广东省深圳市南山区粤海街道
广东省	深圳市	南山区	桃源街道	广东省深圳市南山区桃源街道
					广东省	深圳市	南山区	西丽街道	广东省深圳市南山区西丽街道
广东省	深圳市	南山区	前海合作区	广东省深圳市南山区前海合作区
					广东省	深圳市	宝安区	新安街道	广东省深圳市宝安区新安街道
广东省	深圳市	宝安区	西乡街道	广东省深圳市宝安区西乡街道
					广东省	深圳市	宝安区	航城街道	广东省深圳市宝安区航城街道
广东省	深圳市	宝安区	福永街道	广东省深圳市宝安区福永街道
					广东省	深圳市	宝安区	福海街道	广东省深圳市宝安区福海街道
广东省	深圳市	宝安区	沙井街道	广东省深圳市宝安区沙井街道

步骤2：数据预处理，对需要匹配的行政区划名称进行预处理，包括：(1)去除特殊字符，如空格、标点符号、乱码等；(2)去除英文和数字；(3)多级行政区划名称拼接。如四级行政区划，将待校正的省、市、区、街道的名称拼接为一个字符串，如“广东深圳南山西丽”。

步骤3：计算相似度。计算步骤2中的字符串与步骤1表中的“conbine_name”一列的各个名称字符串的相似度。在此相似度的计算方式采用Sorensen相似度算法进行计算。计算公式如下：

其中，s₁和s₂分别为步骤2中的字符串与步骤1表中的“conbine_name”一列的任一名称字符串，sim(s₁,s₂)为s₁和s₂的相似度，set(s₁)为s₁的单字集合，len(set(s₁))为set(s₁)的长度，set(s₂)为s₂的单字集合，len(set(s₂))为set(s₂)的长度。

例如，s₁＝'广东深圳南山西丽'，则set(s₁)＝['广'，'东'，'深'，'圳'，'南'，'山'，'西'，'丽']，len(set(s₁))＝8，以此类推。将步骤2的示例“广东深圳南山西丽”为例，计算与步骤1的示例中的“conbine_name”各名称字符串的相似度计算结果如下：

conbine_name	sim
		广东省深圳市福田区福田保税区	0.4211
广东省深圳市南山区南头街道	0.6000
		广东省深圳市南山区南山街道	0.6316
广东省深圳市南山区沙河街道	0.5714
		广东省深圳市南山区蛇口街道	0.5714
广东省深圳市南山区招商街道	0.5714
		广东省深圳市南山区粤海街道	0.5714
广东省深圳市南山区桃源街道	0.5714
		广东省深圳市南山区西丽街道	0.7619
广东省深圳市南山区前海合作区	0.5714
		广东省深圳市宝安区新安街道	0.4000
广东省深圳市宝安区西乡街道	0.4762
		广东省深圳市宝安区航城街道	0.3810
广东省深圳市宝安区福永街道	0.3810
		广东省深圳市宝安区福海街道	0.3810
广东省深圳市宝安区沙井街道	0.3810

步骤4：在上述相似度结果中选择选择相似度最大的名称，从而得到对应的标准的省、市、区及街道的名称。如步骤3中相似度最大为0.7619，则步骤2的示例“广东深圳南山西丽”对应的省、市、区及街道的标准名称为：广东省深圳市南山区西丽街道。

该方案具有以下优点：

(1)计算性能高。相似度计算过程基于集合的运算，计算效率高；

(2)准确度高。主要原因包括：其一，相似度计算过程中采用了Sorensen算法，对行政区划名称错位、错别字、不规范、不完整、重复等问题具有非常好的兼容性。其二，多级行政区划名称拼接为全称计算相似度，避免了分词不准确导致的错误。利用某电商平台的超过2亿6千5百万订单信息地址进行测试，对其省、市、区三级行政区划名称进行校正，准确率达到99.96％以上，明显高于其他方法的准确率；

(3)便于推广，只需维护标准的行政区划表，不需要其他额外的信息，能非常方便推广到多个领域的应用，对电商企业、物流企业来说具有非常重要的意义。

实施例二

请参阅图2，图2是本发明实施例公开的一种基于相似度的行政区划匹配装置的结构示意图。其中，图2所描述的装置可以应用于相应的匹配处理终端、匹配处理设备或匹配处理服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图2所示，该装置可以包括：

第一确定模块201，用于确定多个标准行政区划信息；

第二确定模块202，用于确定待匹配行政区划信息；

计算模块203，用于计算待匹配行政区划信息与任一标准行政区划信息之间的相似度；

第三确定模块204，用于将多个标准行政区划信息中与待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。

可见，实施本发明实施例所描述的装置通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果，一方面能够提供一种简洁高效的匹配思路，提高匹配的效率，另一方面能够保证匹配的精确度，从而达到良好的匹配效果。

作为一种可选的实施方式，该装置还包括：

修正模块，用于根据目标行政区划信息，修正待匹配行政区划信息。

作为一种可选的实施方式，修正模块根据目标行政区划信息，修正待匹配行政区划信息的具体方式，包括：

计算目标行政区划信息与待匹配行政区划信息的差别程度；

若差别程度大于预设的差别阈值，则执行修正操作；

作为一种可选的实施方式，修正模块执行修正操作的具体方式，包括：

将待匹配行政区划信息替换为目标行政区划信息。

作为一种可选的实施方式，第一确定模块201确定多个标准行政区划信息的具体方式，包括：

获取多个标准行政区划名称；

作为一种可选的实施方式，第二确定模块202确定待匹配行政区划信息的具体方式，包括：

获取初始行政区划信息；

作为一种可选的实施方式，第二确定模块202对初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息的具体方式，包括：

对初始行政区划信息中的特殊字符进行去除，以得到待匹配行政区划信息；特殊字符包括空格符号、标点符号和乱码符号中的至少一种。

识别出初始行政区划信息中的多个层级的行政区划信息；

作为一种可选的实施方式，计算模块203计算待匹配行政区划信息与任一标准行政区划信息之间的相似度的具体方式，包括：

作为一种可选的实施方式，计算模块203基于以下公式计算待匹配行政区划信息与任一标准行政区划信息之间的相似度：

本实施例还公开了一个上述行政区划匹配装置的一个具体的实施方案，该方案为一种基于相似度匹配的行政区划名称校验系统，其目的在于：(1)实现一种更加简单、便捷的行政区划名称识别方法，输出标准的行政区划名称；(2)不需要引入其他额外的信息(如POI、统一社会信用代码等)，便于在多个应用领域推广；(3)更高的准确率和计算效率。

具体的，该系统可以执行以下步骤：

该系统具有以下优点：

实施例三

请参阅图3，图3是本发明实施例公开的又一种基于相似度的行政区划匹配装置的结构示意图。如图3所示，该装置可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，执行本发明实施例一公开的基于相似度的行政区划匹配方法中的部分或全部步骤。

实施例四

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的基于相似度的行政区划匹配方法中的部分或全部步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于相似度的行政区划匹配方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于相似度的行政区划匹配方法，其特征在于，所述方法包括：

确定多个标准行政区划信息；

确定待匹配行政区划信息；

2.根据权利要求1所述的基于相似度的行政区划匹配方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于相似度的行政区划匹配方法，其特征在于，所述根据所述目标行政区划信息，修正所述待匹配行政区划信息，包括：

若所述差别程度大于预设的差别阈值，则执行修正操作；

以及，所述执行修正操作，包括：

将所述待匹配行政区划信息替换为所述目标行政区划信息。

4.根据权利要求1所述的基于相似度的行政区划匹配方法，其特征在于，所述确定多个标准行政区划信息，包括：

获取多个标准行政区划名称；

5.根据权利要求4所述的基于相似度的行政区划匹配方法，其特征在于，所述确定待匹配行政区划信息，包括：

获取初始行政区划信息；

6.根据权利要求5所述的基于相似度的行政区划匹配方法，其特征在于，所述对所述初始行政区划信息执行数据预处理操作，以得到待匹配行政区划信息，包括：

和/或，

7.根据权利要求1所述的基于相似度的行政区划匹配方法，其特征在于，所述计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度，包括：

8.根据权利要求7所述的基于相似度的行政区划匹配方法，其特征在于，基于以下公式计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度：

9.一种基于相似度的行政区划匹配装置，其特征在于，所述装置包括：

第一确定模块，用于确定多个标准行政区划信息；

第二确定模块，用于确定待匹配行政区划信息；

10.一种基于相似度的行政区划匹配装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-8任一项所述的基于相似度的行政区划匹配方法。