CN111797182A - 一种地址编码解析方法及系统 - Google Patents
一种地址编码解析方法及系统 Download PDFInfo
- Publication number
- CN111797182A CN111797182A CN202010473930.4A CN202010473930A CN111797182A CN 111797182 A CN111797182 A CN 111797182A CN 202010473930 A CN202010473930 A CN 202010473930A CN 111797182 A CN111797182 A CN 111797182A
- Authority
- CN
- China
- Prior art keywords
- address
- addresses
- matching
- splitting
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 5
- 238000009411 base construction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 15
- 241000233805 Phoenix Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种地址编码解析方法及系统,其中方法包括:将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息,若否,则将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串,再将所述地址字符串分别与所述地址库中的地址进行模糊匹配,得到多个目标地址,再根据所述多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断所述多个目标地址是否均属于同一个空间围栏范围,若是,则选取与所述待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。通过上述方式,本发明能够结合地址拆分词和空间围栏的点面匹配来提升地址解析的命中率和准确率。
Description
技术领域
本申请涉及地址编码解析技术领域,特别是涉及一种地址编码解析方法及系统。
背景技术
随着互联网的快速发展,对空间数据与非空间数据共享整合的要求日益迫切,地理编码的应用已经渗透到了军事、经济、生态、规划、交通、电力、水利、物流等各行各业,提供了位置定位、路径规划、空间分析、多源数据的空间运算等多种应用服务上。但是由于中国的地名、地址体系异常复杂、用户填写地址不统一等原因的存在,其无形中增大了地址编码解析的难度,使得地址编码解析匹配的命中率和正确率过低,难以满足实际业务场景中的需求,同时,物流行业对地址编码解析的匹配率的需求更高,通常情况下,地址编码解析的匹配率需大于95%,命中率需大于99%,方可进行使用。
目前,地址编码解析主要通过地址切分词组合的方式,从地址库中匹配出一条最相似的地址,将该地址的经纬度信息作为匹配结果输出,此外,还有利用语义或模糊匹配等方式来进行匹配,但是,上述方式在面对不标准或不同描述的文本地址解析时,命中率和准确率仍然不够高。
发明内容
本申请提供一种地址编码解析方法及系统,以解决现有的地址编码解析方式命中率和准确率不够高的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种地址编码解析方法,包括:S1、将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息,若否,执行步骤S2;S2、将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串;S3、将地址字符串分别与地址库中的地址进行模糊匹配,得到多个目标地址;S4、根据多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断多个目标地址是否均属于同一个空间围栏范围,若是,则执行步骤S5;S5、选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
作为本发明的进一步改进,预先建立的地址库通过如下步骤得到:构建地址库存储结构;地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级;将包含行政区划信息和门址信息的样本地址按照关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息;根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
作为本发明的进一步改进,步骤S3中匹配结束后,还包括:对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
作为本发明的进一步改进,步骤S3中将地址字符串分别与地址库中的地址进行模糊匹配,包括:将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配。
作为本发明的进一步改进,步骤S2包括:将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种地址编码解析系统,包括:精准匹配模块,用于将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息;拆分模块,用于当未匹配到完全一致的地址时,将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串;模糊匹配模块,用于将地址字符串分别与地址库中的地址进行模糊匹配,得到多个目标地址;点面匹配模块,用于根据多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断多个目标地址是否均属于同一个空间围栏范围;输出模块,用于当多个目标地址均属于同一个空间围栏范围时,选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
作为本发明的进一步改进,其还包括地址库构建模块,用于预先建立地址库;地址库构建模块包括:存储结构构建单元,用于构建地址库存储结构;地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级;切分及存储单元,用于将包含行政区划信息和门址信息的样本地址按照关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息;优先级设置单元,用于根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
作为本发明的进一步改进,模糊匹配模块包括:匹配单元,用于将地址字符串分别与地址库中的地址进行模糊匹配;筛选单元,用于对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
作为本发明的进一步改进,匹配单元包括:行政区划匹配子单元,用于将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;门址匹配子单元,用于所述行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配。
作为本发明的进一步改进,拆分模块包括:拆分单元,用于将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;拆分结果输出单元,用于得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
本申请的有益效果是:本发明公开的地址编码解析方法通过先对待解析地址进行文本上的精准匹配,在未匹配成功时,将待解析地址拆分为地址字符串,并分别对地址字符串进行模糊匹配,得到多个目标地址,再获取多个目标地址的经纬度信息,从而确认多个目标地址是否处于同一个空间围栏范围,若是,则选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果,其不仅仅是从地址拆分的词组方面进行模糊匹配,在获取到多个目标地址时,通过多个目标地址与空间围栏间的关系,对多个目标地址进行“点”与面的对标,从而进一步提升了匹配的命中率和准确率,同时也有效地避免了过度依赖拆分词导致命中率高而准确率不高的问题。
附图说明
图1是本发明地址编码解析方法一个实施例的流程示意图;
图2是本发明地址编码解析方法中空间围栏建设示例的示意图;
图3是本发明地址编码解析系统一个实施例的功能模块示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明地址编码解析方法一个实施例的流程示意图。如图1所示,该地址编码解析方法包括:
步骤S1、将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息,若否,执行步骤S2。
在步骤S1中,在获取到待解析地址后,首先将待解析地址与预设建立的地址库中所有的地址在文本上逐一进行精准匹配,若在地址库中匹配到文本上完全一致的地址,则匹配成功,将该匹配到的地址对应的经纬度信息输出。若在文本库中未匹配到文本上完全一致的地址,则执行步骤S2。
需要说明的是,本实施例中,在将待解析地址与地址库中的地址进行匹配之前,还需预先建立地址库,预先建立地址库的步骤包括:
1、构建地址库存储结构;地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级。
具体地,地址库存储结构是指按照国家、省、市、区/县、街道、村/社区、道路、街/路等级别将地址划分为多个地址层级,而该多个地址层级是通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分得到。本实施例中,地址库存储结构共包括十八个地址层级,依次为:国家、省级行政区域(省、自治区、直辖市和特写行政区)、地级行政区域(地级市、地区、自治州和盟)、县级行政区域(县、自治县、县级市、旗、自治旗、市辖区、林区和特区)、乡(街道、名族乡、镇)、村(社区)、路、街(之路)、路号、小区(写字楼/园区)、区域(方位门)、内部道路、楼号(门牌号)、单元(门洞)、楼层、室号、名称、其他(描述性语言);其中,十八级地址层级中前四级为行政区划关键词地址层级,其余级别为门址信息关键词地址层级。
需要说明的是,本实施例中的十八层级地址存储结构建立后,根据实际业务情况,可以对每一层级的关键词进行增减调整,不作限制。
2、将包含行政区划信息和门址信息的样本地址按照关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息。
具体地,地址信息包括两部分,分别是行政区划信息和门址信息,在对样本地址进行字符串切分时,按照行政区划信息和门址信息关键词类别进行切分,例如:现有一样本地址为:“中国湖北省武汉市汉南区纱帽街道左岸凤凰城1-10商铺(黄秀平西医内科诊所)燎森会所正对面”,按行政区划信息和门址信息关键词类别进行字符串拆分,得到“中国/湖北省/武汉市/汉南区/纱帽街道/左岸凤凰城/1-10商铺/(黄秀平西医内科诊所)/燎森会所正对面”,在对该样本地址切分完成后,将切分后的各级字符串分别存储到地址库相应的行政区划关键词地址层级和门址信息关键词地址层级中,同时还将保存该样本地址对应的经纬度信息。
需要说明的是,如果样本地址质量不高,所包含的行政区划信息和/或门址信息不全,在将样本地址进行字符串切分后,按照十八级地址层级进行存储时,会出现部分地址层级存在信息缺省的情况。
3、根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
具体地,为了提升样本地址的可信度,在对样本地址切分完成后,根据切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低,级数越高,其置信度优先级越高。本实施例中,将级数超过十二级的样本地址的置信度优先级设置为高,级数在九级至十二级之间的样本地址的置信度优先级设置为一般,级数在九级以下的样本地址的置信度优先级设置为低。以上述步骤的样本地址为例,样本地址“中国湖北省武汉市汉南区纱帽街道左岸凤凰城1-10商铺(黄秀平西医内科诊所)燎森会所正对面”经切分后,得到的切分后地址是“中国/湖北省/武汉市/汉南区/纱帽街道/左岸凤凰城/1-10商铺/(黄秀平西医内科诊所)/燎森会所正对面”,此样本地址经切分后得到的关键词地址层级的级数为九级,那么该样本地址的置信度优先级将设备为一般。
需要说明的是,在构建地址库之前,还需要对获取到的海量样本地址进行数据清洗,过滤掉地址信息中的特殊字符和特定组合词组,例如:特殊字符包括“-”、“#”、“空格等,特定组合词组包括“收件人”、“电话号码”、“先生”、“女士”等。
步骤S2、将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串。
在步骤S2中,预设拆分规则由用户预先设定,本实施例中,该预设拆分规则包括标准拆词拆分规则和逐级递增拆词拆分规则两种,利用上述两个规则分别对待解析地址进行拆分,得到至少两条地址字符串。具体地,标准拆词拆分规则和逐级递增拆词拆分规则分别对待解析地址进行拆分具体包括:
将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
其中,标准拆词拆分规则可使用通用分词库来根据自身的拆分规则进行拆分,因此,按照标准拆词拆分规则可将待解析地址拆分为一条地址字符串,在本实施例中,标准拆词拆分规则使用通用分词库GeoCoding对地址拆分。
进一步地,逐级递增拆词拆分规则基于动宾结构或者名词的基础上逐字增加,因此,按照逐级递增拆词拆分规则可将待解析地址拆分为至少一条地址字符串。
例如,以待解析地址为“广东省深圳市科发科技大厦B栋”为例进行说明:
(1)按照标准拆词拆分规则进行拆分得到的结果为:
广东省/深圳市/科发/科技大厦/B栋;
(2)按照逐级递增拆词拆分规则拆分得到的结果为:
1、广东省/深圳市/科发/科技/大厦/B栋;
2、广东省/深圳市/科发科技/大厦/B栋;
3、广东省/深圳市/科发科技大厦/B栋;
4、广东省/深圳市/科发科技大厦B栋。
利用标准拆词拆分规则和逐级递增拆词拆分规则,对待解析地址“广东省深圳市科发科技大厦B栋”共拆分得到五条地址字符串。
需要说明的是,考虑到行政区划信息的唯一性,标准拆词拆分规则和逐级递增拆词拆分规则在拆分待解析地址时,均是先将行政区划信息进行拆分,而且逐级递增拆词拆分规则在拆分词时仅针对门址信息进行逐级递增拆分,行政区划信息的拆分结果维持不变。
步骤S3、将地址字符串分别与地址库中的地址进行模糊匹配,得到多个目标地址。
在步骤S3中,对待解析地址进行拆分后得到的至少两条地址字符串,分别与地址库中的每一个样本地址进行匹配,得到相似度较高的多个目标地址。
本实施例中,地址库中的样本地址按照地址存储结构划分为了多个级别,而待解析地址包括行政区划信息和门址信息,因此,在步骤S3中,将地址字符串分别与地址库中的地址进行模糊匹配的步骤具体包括:
将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配;此处进行匹配的门址信息关键词地址层级,仅指地址库中与行政区域字符匹配成功的样本信息所对应的门址信息关键词地址层级。
具体地,待解析地址拆分得到的地址字符串包括了行政区划字符和门址字符,在进行地址匹配时,通过先对行政区划字符按行政区划关键词地址层级进行逐级匹配以筛选样本数据,在行政区划字符匹配成功后,再对门址字符按门址信息关键词地址层级进行逐级匹配,以完成对所有样本地址的筛查。
例如,继续以步骤S2中的待解析地址为“广东省深圳市科发科技大厦B栋”为例进行说明。
经过拆分后,该待解析地址得到五条地址字符串,现以标准拆词规则得到的结果为例,标准拆词得到的结果为“广东省/深圳市/科发/科技大厦/B栋”。
先将该拆分结果中的行政区划“广东省/深圳市”与地址库中各条地址的行政区划关键词地址层级进行逐级匹配,行政区划匹配成功后,再将拆分结果中的门址字符“科发/科技大厦/B栋”逐一与地址库中行政区划匹配成功的样本地址所对应的门址信息关键词地址层级进行逐级匹配。门址字符逐级匹配具体为,先将“科发”这一字段与地址库中样本地址的门址信息关键词地址层级进行逐一匹配,假设与地址库中其中一条样本地址的第六层级门址信息关键词地址层级匹配成功,则后面的“科发大厦”字段则直接从地址库中该条样本地址第七层级门址信息关键词地址层级开始逐一匹配,不再与第五层级和第六层级的门址信息关键词地址层级进行匹配。其他拆分结果均按照此匹配过程进行模糊匹配,此处不再一一赘述。
进一步的,本实施例中,在构建地址库时,已对样本地址设定了置信度优先级,因此,为了保证最终输出结果的可靠性,在将地址字符串分别与地址库中的地址进行模糊匹配后,还包括:
对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
具体地,该预设数量预先设置,当匹配得到的地址数目超过该预设数量时,则根据各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名从高至低,选取出预设数量的地址作为目标地址,其中,地址置信度在构建地址库时评估并录入了地址库,匹配相似度则根据样本地址与待解析地址之间匹配成功的地址层级的数目确定。
步骤S4、根据多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断多个目标地址是否均属于同一个空间围栏范围。若是,则执行步骤S5。
需要说明的是,请参阅图2,空间围栏是指由两个以上的同一地点不同描述的地址组成,泛指某个特征区域的覆盖面(如图2中阴影区域),每个空间围栏自带唯一编码标识,用于关联本空间围栏区域内的地址信息。空间围栏的构建方式包括两种:其一是沿路绘制,绘制时会关联经纬度周边的路网数据,基于路网形成三角形面,然后利用泰森多边形规则生成空间围栏,该种方式主要用于路网围绕的区域的空间围栏绘制;其二是手工绘制,手工绘制会根据建筑物主体的东、南、西、北、东北、东南、西北、西南八个面,向外不大于50m的范围内进行绘制,绘制时不得超过周围道路内界线。
在步骤S4中,在得到多个目标地址后,分别获取每个目标地址的经纬度信息,再判断每个目标地址的经纬度信息是否落入同一个空间围栏范围内,若是,则执行步骤S5。
步骤S5、选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
例如,继续以步骤S2中例子进行说明,通过将待解析地址“广东省深圳市科发科技大厦B栋”经拆分并模糊匹配后得到了以下目标地址:
1、广东省/深圳市/南山区/科发科技大厦;
2、广东省/深圳市/南山区/科发科技大厦/B栋/508室;
3、广东省/深圳市/南山区/科发科技/A栋/608室;
4、广东省/深圳市/科苑路/1088号/科发科技大厦;
5、广东省/深圳市/南山区/科发科技大厦/泽熙投资有限公司;
其中,该五条目标地址均能落入预先建设的“科发科技大厦”空间围栏中,那么则选择匹配度最高的第3个样本地址对应的经纬度信息作为解析结果。
本实施例通过先对待解析地址进行文本上的精准匹配,在未匹配成功时,将待解析地址拆分为地址字符串,并分别对地址字符串进行模糊匹配,得到多个目标地址,再获取多个目标地址的经纬度信息,从而确认多个目标地址是否处于同一个空间围栏范围,若是,则选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果,其不仅仅是从地址拆分的词组方面进行模糊匹配,在获取到多个目标地址时,通过多个目标地址与空间围栏间的关系,对多个目标地址进行“点”层面的对标,从而进一步提升了匹配的命中率和准确率,同时也有效地避免了过度依赖拆分词导致命中率高而准确率不高的问题。
图3展示了本发明地址编码解析系统一个实施例的功能模块示意图。如图3所示,该地址编码解析系统包括:精准匹配模块10、拆分模块11、模糊匹配模块12、点面匹配模块13和输出模块14。
其中,精准匹配模块10,用于将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息;拆分模块11,用于当未匹配到完全一致的地址时,将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串;模糊匹配模块12,用于将地址字符串分别与地址库中的地址进行模糊匹配,得到多个目标地址;点面匹配模块13,用于根据多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断多个目标地址是否均属于同一个空间围栏范围;输出模块14,用于当多个目标地址均属于同一个空间围栏范围时,选取与待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
可选地,该地址编码解析系统还包括地址库构建模块20,用于预先建立地址库;地址库构建模块包括:存储结构构建单元201、切分及存储单元202和优先级设置单元203。
其中,存储结构构建单元201,用于构建地址库存储结构;地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级;切分及存储单元202,用于将包含行政区划信息和门址信息的样本地址按照关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息;优先级设置单元203,用于根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
可选地,模糊匹配模块12包括:匹配单元120和筛选单元121。
其中,匹配单元120,用于将地址字符串分别与地址库中的地址进行模糊匹配;筛选单元121,用于对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
可选地,匹配单元120包括:行政区划匹配子单元1200和门址匹配子单元1201。
其中,行政区划匹配子单元1200,用于将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;门址匹配子单元1201,用于行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配。
可选地,拆分模块11包括:拆分单元110和拆分结果输出单元111。
其中,拆分单元110,用于将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;拆分结果输出单元111,用于得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
关于上述实施例地址编码解析系统中各模块实现技术方案的其他细节,可参见上述实施例中的地址编码解析方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对发明的具体实施方式进行了详细说明,但其只作为范例,本发明并不限制于以上描述的具体实施方式。对于本领域的技术人员而言,任何对该发明进行的等同修改或替代也都在本发明的范畴之中,因此,在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等,都应涵盖在本发明的范围内。
Claims (10)
1.一种地址编码解析方法,其特征在于,包括:
S1、将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息,若否,执行步骤S2;
S2、将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串;
S3、将所述地址字符串分别与所述地址库中的地址进行模糊匹配,得到多个目标地址;
S4、根据所述多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断所述多个目标地址是否均属于同一个空间围栏范围,若是,则执行步骤S5;
S5、选取与所述待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
2.根据权利要求1所述的地址编码解析方法,其特征在于,所述预先建立的地址库通过如下步骤得到:
构建地址库存储结构;所述地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级;
将包含行政区划信息和门址信息的样本地址按照所述关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息;
根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
3.根据权利要求2所述的地址编码解析方法,其特征在于,所述步骤S3中匹配结束后,还包括:
对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
4.根据权利要求3所述的地址编码解析方法,其特征在于,步骤S3中所述将所述地址字符串分别与所述地址库中的地址进行模糊匹配,包括:
将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;
所述行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配。
5.根据权利要求1所述的地址编码解析方法,其特征在于,所述步骤S2包括:
将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;
得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
6.一种地址编码解析系统,其特征在于,包括:
精准匹配模块,用于将待解析地址与预先建立的地址库中的地址逐一进行精准匹配,若匹配到完全一致的地址,则输出该地址对应的经纬度信息;
拆分模块,用于当未匹配到完全一致的地址时,将待解析地址按照预设拆分规则进行拆分,得到至少两条地址字符串;
模糊匹配模块,用于将所述地址字符串分别与所述地址库中的地址进行模糊匹配,得到多个目标地址;
点面匹配模块,用于根据所述多个目标地址对应的经纬度信息,对其分别作点面匹配运算,判断所述多个目标地址是否均属于同一个空间围栏范围;
输出模块,用于当所述多个目标地址均属于同一个空间围栏范围时,选取与所述待解析地址匹配度最高的目标地址对应的经纬度信息作为解析结果。
7.根据权利要求6所述的地址编码解析系统,其特征在于,还包括地址库构建模块,用于预先建立地址库;所述地址库构建模块包括:
存储结构构建单元,用于构建地址库存储结构;所述地址库存储结构包含通过提取统计海量样本地址中的关键词信息,并根据行政区划信息和门址信息关键词类别分类划分成若干数量关键词地址层级;
切分及存储单元,用于将包含行政区划信息和门址信息的样本地址按照所述关键词类别进行字符串切分,并将切分得到的各字符串存储到地址库相应的行政区划关键词地址层级或门址信息关键词地址层级中;存入地址库中的样本地址同时存储对应的经纬度信息;
优先级设置单元,用于根据样本地址进行字符串切分后得到的关键词地址层级的级数高低,相应设置样本地址的置信度优先级的高低。
8.根据权利要求7所述的地址编码解析系统,其特征在于,模糊匹配模块包括:
匹配单元,用于将所述地址字符串分别与所述地址库中的地址进行模糊匹配;
筛选单元,用于对匹配得到的地址,综合评价各地址与待解析地址的匹配相似度和地址置信度优先级,按照排名高低,选取符合预设数量的地址作为目标地址。
9.根据权利要求8所述的地址编码解析系统,其特征在于,匹配单元包括:
行政区划匹配子单元,用于将地址字符串中的行政区划字符与地址库中各条地址的行政区划关键词地址层级进行逐级匹配;
门址匹配子单元,用于所述行政区划字符匹配成功后,将地址字符串中的门址字符逐一与地址库中的门址信息关键词地址层级进行逐级匹配。
10.根据权利要求1所述的地址编码解析系统,其特征在于,所述拆分模块包括:
拆分单元,用于将待解析地址分别按照标准拆词拆分规则和逐级递增拆词拆分规则进行拆分;
拆分结果输出单元,用于得到按照标准拆词拆分规则拆分后的地址字符串,以及按照逐级递增拆词拆分规则拆分后的至少一条地址字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010473930.4A CN111797182B (zh) | 2020-05-29 | 2020-05-29 | 一种地址编码解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010473930.4A CN111797182B (zh) | 2020-05-29 | 2020-05-29 | 一种地址编码解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797182A true CN111797182A (zh) | 2020-10-20 |
CN111797182B CN111797182B (zh) | 2024-01-30 |
Family
ID=72806610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010473930.4A Active CN111797182B (zh) | 2020-05-29 | 2020-05-29 | 一种地址编码解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797182B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095325A (zh) * | 2021-05-11 | 2021-07-09 | 浙江华是科技股份有限公司 | 一种船舶识别方法、装置及计算机可读存储介质 |
CN113190596A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 一种地名地址混合匹配的方法和装置 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113536070A (zh) * | 2021-08-11 | 2021-10-22 | 汉唐信通(北京)咨询股份有限公司 | 一种地址解析方法、系统、计算机设备和存储介质 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113612727A (zh) * | 2021-06-24 | 2021-11-05 | 北京华云安信息技术有限公司 | 攻击ip识别方法、装置、设备和计算机可读存储介质 |
CN114745327A (zh) * | 2022-06-10 | 2022-07-12 | 鹏城实验室 | 业务数据转发方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN109933797A (zh) * | 2019-03-21 | 2019-06-25 | 东南大学 | 基于Jieba分词及地址词库的地理编码方法和系统 |
CN110475204A (zh) * | 2019-09-23 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种地理围栏逆地址解析方法、装置及设备 |
-
2020
- 2020-05-29 CN CN202010473930.4A patent/CN111797182B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN109933797A (zh) * | 2019-03-21 | 2019-06-25 | 东南大学 | 基于Jieba分词及地址词库的地理编码方法和系统 |
CN110475204A (zh) * | 2019-09-23 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种地理围栏逆地址解析方法、装置及设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190596A (zh) * | 2021-04-22 | 2021-07-30 | 华中科技大学 | 一种地名地址混合匹配的方法和装置 |
CN113095325A (zh) * | 2021-05-11 | 2021-07-09 | 浙江华是科技股份有限公司 | 一种船舶识别方法、装置及计算机可读存储介质 |
CN113095325B (zh) * | 2021-05-11 | 2021-11-09 | 浙江华是科技股份有限公司 | 一种船舶识别方法、装置及计算机可读存储介质 |
CN113612727A (zh) * | 2021-06-24 | 2021-11-05 | 北京华云安信息技术有限公司 | 攻击ip识别方法、装置、设备和计算机可读存储介质 |
CN113612727B (zh) * | 2021-06-24 | 2023-04-18 | 北京华云安信息技术有限公司 | 攻击ip识别方法、装置、设备和计算机可读存储介质 |
CN113515677A (zh) * | 2021-07-22 | 2021-10-19 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113539270A (zh) * | 2021-07-22 | 2021-10-22 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113515677B (zh) * | 2021-07-22 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 地址匹配方法、装置及计算机可读存储介质 |
CN113539270B (zh) * | 2021-07-22 | 2024-04-02 | 阳光保险集团股份有限公司 | 一种位置识别方法、装置、电子设备和存储介质 |
CN113536070A (zh) * | 2021-08-11 | 2021-10-22 | 汉唐信通(北京)咨询股份有限公司 | 一种地址解析方法、系统、计算机设备和存储介质 |
CN114745327A (zh) * | 2022-06-10 | 2022-07-12 | 鹏城实验室 | 业务数据转发方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111797182B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797182A (zh) | 一种地址编码解析方法及系统 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
CN107145577A (zh) | 地址标准化方法、装置、存储介质及计算机 | |
CN108763215B (zh) | 一种基于地址分词的地址存储方法、装置及计算机设备 | |
CN106874287B (zh) | 一种兴趣点 poi 地址编码的处理方法及装置 | |
CN107203526B (zh) | 一种查询串语义需求分析方法及装置 | |
CN101350012A (zh) | 一种地址匹配的方法和系统 | |
CN110110020A (zh) | 用于标识和传送位置的方法和装置 | |
CN109145073A (zh) | 一种基于分词算法的地址解析方法及装置 | |
CN111159973B (zh) | 一种中文地址的行政区划补齐及标准化方法 | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN112988715B (zh) | 一种基于开源方式的全球网络地名数据库的构建方法 | |
CN104679801A (zh) | 一种兴趣点搜索方法和装置 | |
CN111931077B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN111896016A (zh) | 位置信息的处理方法及装置、存储介质、终端 | |
CN111382138B (zh) | Poi数据处理方法、装置、设备及介质 | |
de Armas García et al. | Deployment of a National Geocoding Service: Cuban Experience. | |
CN110609874B (zh) | 一种基于密度聚类算法的地址实体共指消解方法 | |
CN114661920A (zh) | 地址编码关联方法、业务数据分析方法及相应装置 | |
CN113642313A (zh) | 地址文本的处理方法、装置、设备、存储介质及程序产品 | |
CN111966768A (zh) | 地址描述方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 floor 4, building a, Lufthansa aviation Park, hourui community, Hangcheng street, Bao'an District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Leap New Technology Co.,Ltd. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: Shenzhen Leap New Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |