CN113837634A - 一种基于相似度的行政区划匹配方法及装置 - Google Patents
一种基于相似度的行政区划匹配方法及装置 Download PDFInfo
- Publication number
- CN113837634A CN113837634A CN202111150065.0A CN202111150065A CN113837634A CN 113837634 A CN113837634 A CN 113837634A CN 202111150065 A CN202111150065 A CN 202111150065A CN 113837634 A CN113837634 A CN 113837634A
- Authority
- CN
- China
- Prior art keywords
- administrative division
- division information
- matched
- similarity
- administrative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 6
- 241000270295 Serpentes Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000004576 sand Substances 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 240000005809 Prunus persica Species 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于相似度的行政区划匹配方法及装置,其中该方法包括:确定多个标准行政区划信息;确定待匹配行政区划信息;计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。可见,本发明一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。
Description
技术领域
本发明涉及数据匹配技术领域,尤其涉及一种基于相似度的行政区划匹配方法及装置。
背景技术
物流行业中,物流配送地址的精确识别是至关重要的一步。配送地址一般由多级行政区划名称(如:省、市、区、街道)+详细地址组成,如:广东省深圳市南山区科技XXX路X号XX大厦。目前的不少电商平台在消费者下单时均提供标准的行政区划地址供消费者选择,以保障行政区划地址的正确性。但由于不同平台数据的差异性、下单方式的多样性以及历史地址的复用等因素的影响,造成电商平台最终形成的配送地址中行政区划名称的多样性,出现各种行政区划不规范的问题,如:(1)名称多样性,如“广东省”和“广东”、“广西壮族自治区”和“广西”;(2)名称错位,如将城市名称写成省份名称或者区县名称,如“深圳市广东省南山区”;(3)名称缺失,如城市名称的缺失或者省份名称的缺失,如“广东省福田区”,缺少了“深圳市”;(4)名称错误,如“上海市黄浦区”写成“上海市黄埔区”;(5)名称重复,如“广东省广东省深圳市宝安区”等。而现有技术在解决上述名称不规范的问题时,并没有提出较为简洁且高效的方案,可见现有技术存在缺陷,亟待解决。
发明内容
本发明所要解决的技术问题在于,提供一种基于相似度的行政区划匹配方法及装置,一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。
为了解决上述技术问题,本发明第一方面公开了一种基于相似度的行政区划匹配方法,所述方法包括:
确定多个标准行政区划信息;
确定待匹配行政区划信息;
计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;
将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
根据所述目标行政区划信息,修正所述待匹配行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述目标行政区划信息,修正所述待匹配行政区划信息,包括:
计算所述目标行政区划信息与所述待匹配行政区划信息的差别程度;
若所述差别程度大于预设的差别阈值,则执行修正操作;
以及,所述执行修正操作,包括:
将所述待匹配行政区划信息替换为所述目标行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述确定多个标准行政区划信息,包括:
获取多个标准行政区划名称;
将所述多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,以得到多个所述标准行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述确定待匹配行政区划信息,包括:
获取初始行政区划信息;
对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息,包括:
对所述初始行政区划信息中的特殊字符进行去除,以得到待匹配行政区划信息;所述特殊字符包括空格符号、标点符号和乱码符号中的至少一种;
和/或,
对所述初始行政区划信息中的英文字符和/或数字字符进行去除,以得到待匹配行政区划信息;
和/或,
识别出所述初始行政区划信息中的多个层级的行政区划信息;
将所述多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息。
作为一种可选的实施方式,在本发明第一方面中,所述计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度,包括:
基于Sorensen相似度算法,计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度。
作为一种可选的实施方式,在本发明第一方面中,基于以下公式计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度:
其中,s1和s2分别为所述待匹配行政区划信息与任一所述标准行政区划信息,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
本发明第二方面公开了一种基于相似度的行政区划匹配装置,其包括:
第一确定模块,用于确定多个标准行政区划信息;
第二确定模块,用于确定待匹配行政区划信息;
计算模块,用于计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;
第三确定模块,用于将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
修正模块,用于根据所述目标行政区划信息,修正所述待匹配行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述修正模块根据所述目标行政区划信息,修正所述待匹配行政区划信息的具体方式,包括:
计算所述目标行政区划信息与所述待匹配行政区划信息的差别程度;
若所述差别程度大于预设的差别阈值,则执行修正操作;
以及,所述修正模块执行修正操作的具体方式,包括:
将所述待匹配行政区划信息替换为所述目标行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述第一确定模块确定多个标准行政区划信息的具体方式,包括:
获取多个标准行政区划名称;
将所述多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,以得到多个所述标准行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块确定待匹配行政区划信息的具体方式,包括:
获取初始行政区划信息;
对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息的具体方式,包括:
对所述初始行政区划信息中的特殊字符进行去除,以得到待匹配行政区划信息;所述特殊字符包括空格符号、标点符号和乱码符号中的至少一种;
和/或,
对所述初始行政区划信息中的英文字符和/或数字字符进行去除,以得到待匹配行政区划信息;
和/或,
识别出所述初始行政区划信息中的多个层级的行政区划信息;
将所述多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息。
作为一种可选的实施方式,在本发明第二方面中,所述计算模块计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度的具体方式,包括:
基于Sorensen相似度算法,计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度。
作为一种可选的实施方式,在本发明第二方面中,所述计算模块基于以下公式计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度:
其中,s1和s2分别为所述待匹配行政区划信息与任一所述标准行政区划信息,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
本发明第三方面公开了另一种基于相似度的行政区划匹配装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的基于相似度的行政区划匹配方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,确定多个标准行政区划信息;确定待匹配行政区划信息;计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。可见,本发明通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果,一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于相似度的行政区划匹配方法的流程示意图;
图2是本发明实施例公开的一种基于相似度的行政区划匹配装置的结构示意图;
图3是本发明实施例公开的另一种基于相似度的行政区划匹配装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于相似度的行政区划匹配方法及装置,通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果,一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于相似度的行政区划匹配方法的流程示意图。其中,图1所描述的方法可以应用于相应的匹配处理终端、匹配处理设备或匹配处理服务器中,且该服务器可以是本地服务器,也可以是云服务器。如图1所示,该基于相似度的行政区划匹配方法可以包括以下操作:
101、确定多个标准行政区划信息。
102、确定待匹配行政区划信息。
103、计算待匹配行政区划信息与任一标准行政区划信息之间的相似度。
104、将多个标准行政区划信息中与待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
可见,实施本发明实施例所描述的方法通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果,一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。
作为一种可选的实施方式,该方法还包括:
根据目标行政区划信息,修正待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够根据目标行政区划信息,修正待匹配行政区划信息,使得错误的待匹配行政区划信息得到修正,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,上述步骤中的,根据目标行政区划信息,修正待匹配行政区划信息,包括:
计算目标行政区划信息与待匹配行政区划信息的差别程度。
若差别程度大于预设的差别阈值,则执行修正操作。
可选的,差别程度可以为字符差别程度,例如计算目标行政区划信息与待匹配行政区划信息的不同的字符的数量。可选的,差别阈值为字符数量阈值,在一些可选的情况下,可以将差别阈值设置为0,从而使得只要目标行政区划信息与待匹配行政区划信息不同,就执行修正操作。
可见,通过实施该可选的实施方式,能够计算目标行政区划信息与待匹配行政区划信息的差别程度,并在差别程度大于预设的差别阈值时则执行修正操作,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,上述步骤中的,执行修正操作,包括:
将待匹配行政区划信息替换为目标行政区划信息。
可见,通过实施该可选的实施方式,能够将待匹配行政区划信息替换为目标行政区划信息,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,上述步骤中的,确定多个标准行政区划信息,包括:
获取多个标准行政区划名称。
将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,以得到多个标准行政区划信息。
可见,通过实施该可选的实施方式,能够将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,从而可以确定出精确的标准行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,上述步骤中的,确定待匹配行政区划信息,包括:
获取初始行政区划信息。
对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够对初始行政区划信息执行数据预处理操作,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,上述步骤中的,对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息,包括:
对初始行政区划信息中的特殊字符进行去除,以得到待匹配行政区划信息。特殊字符包括空格符号、标点符号和乱码符号中的至少一种。
可见,通过实施该可选的实施方式,能够对初始行政区划信息中的特殊字符进行去除,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,上述步骤中的,对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息,包括:
对初始行政区划信息中的英文字符和/或数字字符进行去除,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够对初始行政区划信息中的英文字符和/或数字字符进行去除,从而可以确定出核心的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,上述步骤中的,对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息,包括:
识别出初始行政区划信息中的多个层级的行政区划信息。
将多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够将初始行政区划信息中的多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,上述步骤中的,计算待匹配行政区划信息与任一标准行政区划信息之间的相似度,包括:
基于Sorensen相似度算法,计算待匹配行政区划信息与任一标准行政区划信息之间的相似度。
作为一种可选的实施方式,基于以下公式计算待匹配行政区划信息与任一标准行政区划信息之间的相似度:
其中,s1和s2分别为待匹配行政区划信息与任一标准行政区划信息,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
可见,通过实施该可选的实施方式,能够基于上述Sorensen相似度算法公式,计算待匹配行政区划信息与任一标准行政区划信息之间的相似度,从而可以确定出准确的相似度信息,以便于后续的计算或修正。
本实施例还公开了一个上述行政区划匹配方法的一个具体的实施方案,该方案为一种基于相似度匹配的行政区划名称校验方法,其目的在于:(1)实现一种更加简单、便捷的行政区划名称识别方法,输出标准的行政区划名称;(2)不需要引入其他额外的信息(如POI、统一社会信用代码等),便于在多个应用领域推广;(3)更高的准确率和计算效率。
具体的,该方案可以包括以下步骤:
步骤1:构建标准的全国行政区划名称表,其中包含了行政区划名称的层级关系,如下表示例。并将多层行政区划名称拼接为一个字段,如下表的“conbine_name”为四级行政区划名称合并后的字段。
province | city | area | town | conbine_name |
广东省 | 深圳市 | 福田区 | 福田保税区 | 广东省深圳市福田区福田保税区 |
广东省 | 深圳市 | 南山区 | 南头街道 | 广东省深圳市南山区南头街道 |
广东省 | 深圳市 | 南山区 | 南山街道 | 广东省深圳市南山区南山街道 |
广东省 | 深圳市 | 南山区 | 沙河街道 | 广东省深圳市南山区沙河街道 |
广东省 | 深圳市 | 南山区 | 蛇口街道 | 广东省深圳市南山区蛇口街道 |
广东省 | 深圳市 | 南山区 | 招商街道 | 广东省深圳市南山区招商街道 |
广东省 | 深圳市 | 南山区 | 粤海街道 | 广东省深圳市南山区粤海街道 |
广东省 | 深圳市 | 南山区 | 桃源街道 | 广东省深圳市南山区桃源街道 |
广东省 | 深圳市 | 南山区 | 西丽街道 | 广东省深圳市南山区西丽街道 |
广东省 | 深圳市 | 南山区 | 前海合作区 | 广东省深圳市南山区前海合作区 |
广东省 | 深圳市 | 宝安区 | 新安街道 | 广东省深圳市宝安区新安街道 |
广东省 | 深圳市 | 宝安区 | 西乡街道 | 广东省深圳市宝安区西乡街道 |
广东省 | 深圳市 | 宝安区 | 航城街道 | 广东省深圳市宝安区航城街道 |
广东省 | 深圳市 | 宝安区 | 福永街道 | 广东省深圳市宝安区福永街道 |
广东省 | 深圳市 | 宝安区 | 福海街道 | 广东省深圳市宝安区福海街道 |
广东省 | 深圳市 | 宝安区 | 沙井街道 | 广东省深圳市宝安区沙井街道 |
步骤2:数据预处理,对需要匹配的行政区划名称进行预处理,包括:(1)去除特殊字符,如空格、标点符号、乱码等;(2)去除英文和数字;(3)多级行政区划名称拼接。如四级行政区划,将待校正的省、市、区、街道的名称拼接为一个字符串,如“广东深圳南山西丽”。
步骤3:计算相似度。计算步骤2中的字符串与步骤1表中的“conbine_name”一列的各个名称字符串的相似度。在此相似度的计算方式采用Sorensen相似度算法进行计算。计算公式如下:
其中,s1和s2分别为步骤2中的字符串与步骤1表中的“conbine_name”一列的任一名称字符串,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
例如,s1='广东深圳南山西丽',则set(s1)=['广','东','深','圳','南','山','西','丽'],len(set(s1))=8,以此类推。将步骤2的示例“广东深圳南山西丽”为例,计算与步骤1的示例中的“conbine_name”各名称字符串的相似度计算结果如下:
conbine_name | sim |
广东省深圳市福田区福田保税区 | 0.4211 |
广东省深圳市南山区南头街道 | 0.6000 |
广东省深圳市南山区南山街道 | 0.6316 |
广东省深圳市南山区沙河街道 | 0.5714 |
广东省深圳市南山区蛇口街道 | 0.5714 |
广东省深圳市南山区招商街道 | 0.5714 |
广东省深圳市南山区粤海街道 | 0.5714 |
广东省深圳市南山区桃源街道 | 0.5714 |
广东省深圳市南山区西丽街道 | 0.7619 |
广东省深圳市南山区前海合作区 | 0.5714 |
广东省深圳市宝安区新安街道 | 0.4000 |
广东省深圳市宝安区西乡街道 | 0.4762 |
广东省深圳市宝安区航城街道 | 0.3810 |
广东省深圳市宝安区福永街道 | 0.3810 |
广东省深圳市宝安区福海街道 | 0.3810 |
广东省深圳市宝安区沙井街道 | 0.3810 |
步骤4:在上述相似度结果中选择选择相似度最大的名称,从而得到对应的标准的省、市、区及街道的名称。如步骤3中相似度最大为0.7619,则步骤2的示例“广东深圳南山西丽”对应的省、市、区及街道的标准名称为:广东省深圳市南山区西丽街道。
该方案具有以下优点:
(1)计算性能高。相似度计算过程基于集合的运算,计算效率高;
(2)准确度高。主要原因包括:其一,相似度计算过程中采用了Sorensen算法,对行政区划名称错位、错别字、不规范、不完整、重复等问题具有非常好的兼容性。其二,多级行政区划名称拼接为全称计算相似度,避免了分词不准确导致的错误。利用某电商平台的超过2亿6千5百万订单信息地址进行测试,对其省、市、区三级行政区划名称进行校正,准确率达到99.96%以上,明显高于其他方法的准确率;
(3)便于推广,只需维护标准的行政区划表,不需要其他额外的信息,能非常方便推广到多个领域的应用,对电商企业、物流企业来说具有非常重要的意义。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于相似度的行政区划匹配装置的结构示意图。其中,图2所描述的装置可以应用于相应的匹配处理终端、匹配处理设备或匹配处理服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该装置可以包括:
第一确定模块201,用于确定多个标准行政区划信息;
第二确定模块202,用于确定待匹配行政区划信息;
计算模块203,用于计算待匹配行政区划信息与任一标准行政区划信息之间的相似度;
第三确定模块204,用于将多个标准行政区划信息中与待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
可见,实施本发明实施例所描述的装置通过相似度计算来确定出相似度最高的行政区划名称作为匹配结果,一方面能够提供一种简洁高效的匹配思路,提高匹配的效率,另一方面能够保证匹配的精确度,从而达到良好的匹配效果。
作为一种可选的实施方式,该装置还包括:
修正模块,用于根据目标行政区划信息,修正待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够根据目标行政区划信息,修正待匹配行政区划信息,使得错误的待匹配行政区划信息得到修正,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,修正模块根据目标行政区划信息,修正待匹配行政区划信息的具体方式,包括:
计算目标行政区划信息与待匹配行政区划信息的差别程度;
若差别程度大于预设的差别阈值,则执行修正操作;
可选的,差别程度可以为字符差别程度,例如计算目标行政区划信息与待匹配行政区划信息的不同的字符的数量。可选的,差别阈值为字符数量阈值,在一些可选的情况下,可以将差别阈值设置为0,从而使得只要目标行政区划信息与待匹配行政区划信息不同,就执行修正操作。
可见,通过实施该可选的实施方式,能够计算目标行政区划信息与待匹配行政区划信息的差别程度,并在差别程度大于预设的差别阈值时则执行修正操作,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,修正模块执行修正操作的具体方式,包括:
将待匹配行政区划信息替换为目标行政区划信息。
可见,通过实施该可选的实施方式,能够将待匹配行政区划信息替换为目标行政区划信息,从而使得可以得到正确的行政区划信息。
作为一种可选的实施方式,第一确定模块201确定多个标准行政区划信息的具体方式,包括:
获取多个标准行政区划名称;
将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,以得到多个标准行政区划信息。
可见,通过实施该可选的实施方式,能够将多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,从而可以确定出精确的标准行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,第二确定模块202确定待匹配行政区划信息的具体方式,包括:
获取初始行政区划信息;
对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够对初始行政区划信息执行数据预处理操作,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,第二确定模块202对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息的具体方式,包括:
对初始行政区划信息中的特殊字符进行去除,以得到待匹配行政区划信息;特殊字符包括空格符号、标点符号和乱码符号中的至少一种。
可见,通过实施该可选的实施方式,能够对初始行政区划信息中的特殊字符进行去除,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,第二确定模块202对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息的具体方式,包括:
对初始行政区划信息中的英文字符和/或数字字符进行去除,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够对初始行政区划信息中的英文字符和/或数字字符进行去除,从而可以确定出核心的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,第二确定模块202对初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息的具体方式,包括:
识别出初始行政区划信息中的多个层级的行政区划信息;
将多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息。
可见,通过实施该可选的实施方式,能够将初始行政区划信息中的多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息,从而可以确定出准确的待匹配行政区划信息,以便于后续的匹配。
作为一种可选的实施方式,计算模块203计算待匹配行政区划信息与任一标准行政区划信息之间的相似度的具体方式,包括:
基于Sorensen相似度算法,计算待匹配行政区划信息与任一标准行政区划信息之间的相似度。
作为一种可选的实施方式,计算模块203基于以下公式计算待匹配行政区划信息与任一标准行政区划信息之间的相似度:
其中,s1和s2分别为待匹配行政区划信息与任一标准行政区划信息,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
可见,通过实施该可选的实施方式,能够基于上述Sorensen相似度算法公式,计算待匹配行政区划信息与任一标准行政区划信息之间的相似度,从而可以确定出准确的相似度信息,以便于后续的计算或修正。
本实施例还公开了一个上述行政区划匹配装置的一个具体的实施方案,该方案为一种基于相似度匹配的行政区划名称校验系统,其目的在于:(1)实现一种更加简单、便捷的行政区划名称识别方法,输出标准的行政区划名称;(2)不需要引入其他额外的信息(如POI、统一社会信用代码等),便于在多个应用领域推广;(3)更高的准确率和计算效率。
具体的,该系统可以执行以下步骤:
步骤1:构建标准的全国行政区划名称表,其中包含了行政区划名称的层级关系,如下表示例。并将多层行政区划名称拼接为一个字段,如下表的“conbine_name”为四级行政区划名称合并后的字段。
province | city | area | town | conbine_name |
广东省 | 深圳市 | 福田区 | 福田保税区 | 广东省深圳市福田区福田保税区 |
广东省 | 深圳市 | 南山区 | 南头街道 | 广东省深圳市南山区南头街道 |
广东省 | 深圳市 | 南山区 | 南山街道 | 广东省深圳市南山区南山街道 |
广东省 | 深圳市 | 南山区 | 沙河街道 | 广东省深圳市南山区沙河街道 |
广东省 | 深圳市 | 南山区 | 蛇口街道 | 广东省深圳市南山区蛇口街道 |
广东省 | 深圳市 | 南山区 | 招商街道 | 广东省深圳市南山区招商街道 |
广东省 | 深圳市 | 南山区 | 粤海街道 | 广东省深圳市南山区粤海街道 |
广东省 | 深圳市 | 南山区 | 桃源街道 | 广东省深圳市南山区桃源街道 |
广东省 | 深圳市 | 南山区 | 西丽街道 | 广东省深圳市南山区西丽街道 |
广东省 | 深圳市 | 南山区 | 前海合作区 | 广东省深圳市南山区前海合作区 |
广东省 | 深圳市 | 宝安区 | 新安街道 | 广东省深圳市宝安区新安街道 |
广东省 | 深圳市 | 宝安区 | 西乡街道 | 广东省深圳市宝安区西乡街道 |
广东省 | 深圳市 | 宝安区 | 航城街道 | 广东省深圳市宝安区航城街道 |
广东省 | 深圳市 | 宝安区 | 福永街道 | 广东省深圳市宝安区福永街道 |
广东省 | 深圳市 | 宝安区 | 福海街道 | 广东省深圳市宝安区福海街道 |
广东省 | 深圳市 | 宝安区 | 沙井街道 | 广东省深圳市宝安区沙井街道 |
步骤2:数据预处理,对需要匹配的行政区划名称进行预处理,包括:(1)去除特殊字符,如空格、标点符号、乱码等;(2)去除英文和数字;(3)多级行政区划名称拼接。如四级行政区划,将待校正的省、市、区、街道的名称拼接为一个字符串,如“广东深圳南山西丽”。
步骤3:计算相似度。计算步骤2中的字符串与步骤1表中的“conbine_name”一列的各个名称字符串的相似度。在此相似度的计算方式采用Sorensen相似度算法进行计算。计算公式如下:
其中,s1和s2分别为步骤2中的字符串与步骤1表中的“conbine_name”一列的任一名称字符串,sim(s1,s2)为s1和s2的相似度,set(s1)为s1的单字集合,len(set(s1))为set(s1)的长度,set(s2)为s2的单字集合,len(set(s2))为set(s2)的长度。
例如,s1='广东深圳南山西丽',则set(s1)=['广','东','深','圳','南','山','西','丽'],len(set(s1))=8,以此类推。将步骤2的示例“广东深圳南山西丽”为例,计算与步骤1的示例中的“conbine_name”各名称字符串的相似度计算结果如下:
步骤4:在上述相似度结果中选择选择相似度最大的名称,从而得到对应的标准的省、市、区及街道的名称。如步骤3中相似度最大为0.7619,则步骤2的示例“广东深圳南山西丽”对应的省、市、区及街道的标准名称为:广东省深圳市南山区西丽街道。
该系统具有以下优点:
(1)计算性能高。相似度计算过程基于集合的运算,计算效率高;
(2)准确度高。主要原因包括:其一,相似度计算过程中采用了Sorensen算法,对行政区划名称错位、错别字、不规范、不完整、重复等问题具有非常好的兼容性。其二,多级行政区划名称拼接为全称计算相似度,避免了分词不准确导致的错误。利用某电商平台的超过2亿6千5百万订单信息地址进行测试,对其省、市、区三级行政区划名称进行校正,准确率达到99.96%以上,明显高于其他方法的准确率;
(3)便于推广,只需维护标准的行政区划表,不需要其他额外的信息,能非常方便推广到多个领域的应用,对电商企业、物流企业来说具有非常重要的意义。
实施例三
请参阅图3,图3是本发明实施例公开的又一种基于相似度的行政区划匹配装置的结构示意图。如图3所示,该装置可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于相似度的行政区划匹配方法中的部分或全部步骤。
实施例四
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于相似度的行政区划匹配方法中的部分或全部步骤。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于相似度的行政区划匹配方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
Claims (10)
1.一种基于相似度的行政区划匹配方法,其特征在于,所述方法包括:
确定多个标准行政区划信息;
确定待匹配行政区划信息;
计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;
将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
2.根据权利要求1所述的基于相似度的行政区划匹配方法,其特征在于,所述方法还包括:
根据所述目标行政区划信息,修正所述待匹配行政区划信息。
3.根据权利要求2所述的基于相似度的行政区划匹配方法,其特征在于,所述根据所述目标行政区划信息,修正所述待匹配行政区划信息,包括:
计算所述目标行政区划信息与所述待匹配行政区划信息的差别程度;
若所述差别程度大于预设的差别阈值,则执行修正操作;
以及,所述执行修正操作,包括:
将所述待匹配行政区划信息替换为所述目标行政区划信息。
4.根据权利要求1所述的基于相似度的行政区划匹配方法,其特征在于,所述确定多个标准行政区划信息,包括:
获取多个标准行政区划名称;
将所述多个标准行政区划名称中属于同一层级隶属关系的多个标准行政区划名称按照层级顺序拼接成一个标准行政区划信息,以得到多个所述标准行政区划信息。
5.根据权利要求4所述的基于相似度的行政区划匹配方法,其特征在于,所述确定待匹配行政区划信息,包括:
获取初始行政区划信息;
对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息。
6.根据权利要求5所述的基于相似度的行政区划匹配方法,其特征在于,所述对所述初始行政区划信息执行数据预处理操作,以得到待匹配行政区划信息,包括:
对所述初始行政区划信息中的特殊字符进行去除,以得到待匹配行政区划信息;所述特殊字符包括空格符号、标点符号和乱码符号中的至少一种;
和/或,
对所述初始行政区划信息中的英文字符和/或数字字符进行去除,以得到待匹配行政区划信息;
和/或,
识别出所述初始行政区划信息中的多个层级的行政区划信息;
将所述多个层级的行政区划信息按照层级顺序进行拼接,以得到待匹配行政区划信息。
7.根据权利要求1所述的基于相似度的行政区划匹配方法,其特征在于,所述计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度,包括:
基于Sorensen相似度算法,计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度。
9.一种基于相似度的行政区划匹配装置,其特征在于,所述装置包括:
第一确定模块,用于确定多个标准行政区划信息;
第二确定模块,用于确定待匹配行政区划信息;
计算模块,用于计算所述待匹配行政区划信息与任一所述标准行政区划信息之间的相似度;
第三确定模块,用于将所述多个标准行政区划信息中与所述待匹配行政区划信息的相似度最高的标准行政区划信息确定为目标行政区划信息。
10.一种基于相似度的行政区划匹配装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-8任一项所述的基于相似度的行政区划匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111150065.0A CN113837634A (zh) | 2021-09-29 | 2021-09-29 | 一种基于相似度的行政区划匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111150065.0A CN113837634A (zh) | 2021-09-29 | 2021-09-29 | 一种基于相似度的行政区划匹配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837634A true CN113837634A (zh) | 2021-12-24 |
Family
ID=78967613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111150065.0A Pending CN113837634A (zh) | 2021-09-29 | 2021-09-29 | 一种基于相似度的行政区划匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837634A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218957A (zh) * | 2022-02-22 | 2022-03-22 | 阿里巴巴(中国)有限公司 | 行政区划变迁信息的确定方法、装置、设备及存储介质 |
-
2021
- 2021-09-29 CN CN202111150065.0A patent/CN113837634A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218957A (zh) * | 2022-02-22 | 2022-03-22 | 阿里巴巴(中国)有限公司 | 行政区划变迁信息的确定方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656913B (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
CN109739997B (zh) | 地址对比方法、装置及系统 | |
CN108776762B (zh) | 一种数据脱敏的处理方法及装置 | |
CN110674396B (zh) | 文本信息处理方法、装置、电子设备及可读存储介质 | |
CN112069276A (zh) | 地址编码方法、装置、计算机设备及计算机可读存储介质 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN113837634A (zh) | 一种基于相似度的行政区划匹配方法及装置 | |
CN110704719A (zh) | 企业搜索文本分词方法和装置 | |
CN110968730A (zh) | 音频标记处理方法、装置、计算机设备及存储介质 | |
CN109784308B (zh) | 一种地址纠错方法、装置及存储介质 | |
CN116340548A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN111563429A (zh) | 一种图纸校对方法、装置、电子设备及存储介质 | |
CN116414824A (zh) | 行政区划信息识别和标准化处理的方法、装置及存储介质 | |
CN112182353B (zh) | 用于信息搜索的方法、电子设备和存储介质 | |
CN112836497A (zh) | 地址纠正方法、装置、电子设备及存储介质 | |
CN113761137A (zh) | 一种提取地址信息的方法及装置 | |
CN111859956A (zh) | 一种用于金融行业的地址分词方法 | |
CN113221558B (zh) | 一种快递地址纠错方法、装置、存储介质及电子设备 | |
CN115146635A (zh) | 一种基于领域知识增强的地址分节方法 | |
CN114297326A (zh) | 一种地址的验证方法及装置 | |
CN112579713B (zh) | 地址识别方法、装置、计算设备及计算机存储介质 | |
CN114792091A (zh) | 基于词汇增强的中文地址要素解析方法、设备及存储介质 | |
CN112784015A (zh) | 信息识别方法和装置、设备、介质和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |