CN111625732B - 地址匹配方法及装置 - Google Patents

地址匹配方法及装置 Download PDF

Info

Publication number
CN111625732B
CN111625732B CN202010450289.2A CN202010450289A CN111625732B CN 111625732 B CN111625732 B CN 111625732B CN 202010450289 A CN202010450289 A CN 202010450289A CN 111625732 B CN111625732 B CN 111625732B
Authority
CN
China
Prior art keywords
address
matched
word
segmentation
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010450289.2A
Other languages
English (en)
Other versions
CN111625732A (zh
Inventor
张瑞飞
郭孟振
单培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co ltd
Original Assignee
Dingfu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co ltd filed Critical Dingfu Intelligent Technology Co ltd
Priority to CN202010450289.2A priority Critical patent/CN111625732B/zh
Publication of CN111625732A publication Critical patent/CN111625732A/zh
Application granted granted Critical
Publication of CN111625732B publication Critical patent/CN111625732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种地址匹配方法及装置。所述方法包括:采用预设的地址识别模型,识别出待匹配地址对应的待匹配地址分词,以及每个待匹配地址分词对应的地址等级,根据预设的关键地址等级,从多个待匹配地址分词中确定出关键地址分词,进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址,并将与待匹配地址相似度最高的候选地址,确定为目标地址。由于候选地址是根据关键地址分词筛选出的,而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的,因此,可以保证关键地址分词是待匹配地址中的关键信息,进而可以缩小候选地址与待匹配地址之间的差距,提高地址匹配技术的匹配准确度。

Description

地址匹配方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种地址匹配方法及装置。
背景技术
古往今来,几乎人类所有活动都是发生在地球上,都与地球表面位置(即地理空间位置)息息相关,随着计算机技术的日益发展和普及,地理信息系统(GeographyInformation System,GIS)以及在此基础上发展起来的“数字地球”、“数字城市”在人们的生产和生活中起着越来越重要的作用。
GIS系统的建立,需要大量的地理空间位置数据支撑。但现有的地址数据库中保存这大量与地理空间位置相关的非空间数据(即自然语言描述的地址信息),这些非空间数据不能准确地转换为空间数据(即空间的地理位置坐标),进而也无法为GIS系统的建立提供支撑。
现有技术通常采用地址匹配技术解决上述问题,即建立自然语言描述的地址信息与其空间的地理位置坐标之间的对应关系。具体实现时,首先要将自然语言描述的地址信息匹配到标准地址,然后再根据标准地址的地理位置坐标,确定自然语言描述的地址信息的地理位置坐标。这一过程的难点在于自然语言描述的地址信息与标准地址之间的匹配准确度,目前常用的方案是相似度计算,即计算待匹配地址与标准地址之间的相似度值,相似度值越高,越匹配。但是,在一个城市中常有相近的道路名称(如南京东路和南京西路)、相近的建筑名称(如万达广场和万科广场)或相近的小区名称(如鼓楼一村和鼓楼新村),这就容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度。
基于此,目前亟需一种地址匹配方法,用于解决现有技术中基于相似度计算的地址匹配技术,容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度的问题。
发明内容
本申请提供了一种地址匹配方法及装置,可用于解决在现有技术中基于相似度计算的地址匹配技术,容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度的技术问题。
第一方面,本申请实施例提供一种地址匹配方法,所述方法包括:
获取待匹配地址;
采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;
从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;
将与所述待匹配地址相似度最高的候选地址,确定为目标地址。
结合第一方面,在第一方面的一种可实现方式中,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址,包括:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;
根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;
以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。
结合第一方面,在第一方面的一种可实现方式中,当待匹配地址分词对应多个地址等级时,根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词,包括:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。
结合第一方面,在第一方面的一种可实现方式中,所述预设的地址识别模型通过以下方式得到:
根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;
根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;
根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。
结合第一方面,在第一方面的一种可实现方式中,将与所述待匹配地址相似度最高的候选地址,确定为目标地址,包括:
分别计算各个所述候选地址与所述待匹配地址之间的编辑距离;
将编辑距离最小的候选地址确定为所述目标地址。
结合第一方面,在第一方面的一种可实现方式中,待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。
结合第一方面,在第一方面的一种可实现方式中,所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。
第二方面,本申请实施例提供一种地址匹配装置,所述装置包括:
获取单元,用于获取待匹配地址;
识别单元,用于采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
处理单元,用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;以及,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;以及,将与所述待匹配地址相似度最高的候选地址,确定为目标地址。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;以及,根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;以及,以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。
结合第二方面,在第二方面的一种可实现方式中,当待匹配地址分词对应多个地址等级时,所述处理单元具体用于:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。
结合第二方面,在第二方面的一种可实现方式中,所述预设的地址识别模型通过以下方式得到:
根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;
根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;
根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。
结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:
分别计算各个所述候选地址与所述待匹配地址之间的编辑距离;以及,将编辑距离最小的候选地址确定为所述目标地址。
结合第二方面,在第二方面的一种可实现方式中,待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。
结合第二方面,在第二方面的一种可实现方式中,所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。
本申请实施例中,采用预设的地址识别模型,识别出待匹配地址对应的待匹配地址分词,以及每个待匹配地址分词对应的地址等级,根据预设的关键地址等级与每个待匹配地址分词对应的地址等级,从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词,进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址,并将与待匹配地址相似度最高的候选地址,确定为目标地址。如此,相比于现有技术中基于相似度计算的地址匹配技术而言,本申请实施例在相似度计算之前,根据预设的关键地址等级,从待匹配地址分词中筛选出关键地址分词,并以关键地址分词为索引,从预设标准地址库中筛选出候选地址,从而可以减少候选地址的数量,降低运算量;同时,由于候选地址是根据关键地址分词筛选出的,而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的,因此,可以保证关键地址分词是待匹配地址中的关键信息,进而可以缩小候选地址与待匹配地址之间的差距,提高地址匹配技术的匹配准确度。
附图说明
图1为本申请实施例提供一种地址匹配方法所对应的流程示意图;
图2为标准地址的一种示意图;
图3为本申请实施例提供的一种整体性的地址匹配流程的示意图;
图4为本申请实施例提供的一种地址匹配装置的结构示意图;
图5为本发明实施例提供的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
考虑到现有技术中采用相似度计算的方法容易出现误差的情况,例如,待匹配地址是“成都市锦江区梨花街东万达广场2楼”,标准地址A是“成都市锦江区梨花街东万科小区2栋”,标准地址B是“成都市梨花街东万达广场3层”,采用相似度技术的方法,待匹配地址与标准地址A之间的相似度(相差4个字)显然高于待匹配地址与标准地址B之间(相差5个字)的相似度。但是,从真实情况来看,待匹配地址中的“万达广场”与标准地址A中的“万科小区”显然不是同一个地点,这就会导致地址匹配出现错误,进而影响地址匹配技术的匹配准确度。
为了解决上述问题,请参考图1,其示例性示出了本申请实施例提供一种地址匹配方法所对应的流程示意图,具体包括如下步骤:
步骤101,获取待匹配地址。
步骤102,采用预设的地址识别模型,从待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级。
步骤103,根据预设的关键地址等级与每个待匹配地址分词对应的地址等级,从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词。
步骤104,从预设标准地址库中确定出与关键地址分词相匹配的候选地址。
步骤105,将与待匹配地址相似度最高的候选地址,确定为目标地址。
本申请实施例中,采用预设的地址识别模型,识别出待匹配地址对应的待匹配地址分词,以及每个待匹配地址分词对应的地址等级,根据预设的关键地址等级与每个待匹配地址分词对应的地址等级,从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词,进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址,并将与待匹配地址相似度最高的候选地址,确定为目标地址。如此,相比于现有技术中基于相似度计算的地址匹配技术而言,本申请实施例在相似度计算之前,根据预设的关键地址等级,从待匹配地址分词中筛选出关键地址分词,并以关键地址分词为索引,从预设标准地址库中筛选出候选地址,从而可以减少候选地址的数量,降低运算量;同时,由于候选地址是根据关键地址分词筛选出的,而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的,因此,可以保证关键地址分词是待匹配地址中的关键信息,进而可以缩小候选地址与待匹配地址之间的差距,提高地址匹配技术的匹配准确度。
进一步地,本申请实施例中还采用样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练,从而得到预设的地址识别模型,该模型对待匹配地址分段分级,通过泛化能力解决地址分词的完整性和分词边界的准确性。
具体来说,步骤101中,待匹配地址可以来源于各行各业的地址数据库,例如可以来源于快递行业的地址数据库,或者也可以来源于城市交通行业的地址数据库,具体不做限定。
标准地址可以是公安部门牌地址数据标准的地址。标准地址从逻辑上可以分为三部分,即行政区、关键信息、信息点(Point of Interesting,POI)。如图2所示,为标准地址的一种示意图。
从图2中可以看出,标准地址可以是“北京市朝阳区来广营乡广华居2号楼6单元201室”,其中,“北京市朝阳区来广营乡”是行政区,“广华居2号楼”是关键信息,“6单元201室”是信息点。
待匹配地址来源广泛,且大多是人为录入的,这就容易造成待匹配地址在格式上标准化不足,相比于标准地址而言,可能出现信息遗漏的问题。
举个例子,待匹配地址可以是“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”,相比于标准地址,待匹配地址中缺少行政区(即省、市)。标准地址应该是“贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”。
步骤102中,在获取到待匹配地址之后,可以采用预设的地址识别模型进行识别,从而确定出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级。
其中,地址等级可以按行政区域等级进行划分。待匹配地址分词对应的地址等级可以包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。
如表1所示,为地址等级的一种示例。
表1:地址等级的一种示例
序号 地址等级 地址等级的代码 序号 地址等级 地址等级的代码
1 SHNEG 11 门牌号 MPH
2 SHI 12 一级小区 YJXQ
3 QU 13 二级小区 EJXQ
4 街道办事处 JDBSC 14 建筑物 JZW
5 社区 SQ 15 单元 DY
6 居委会 JWH 16 建筑楼栋 LDH
7 乡镇 ZHEN 17 楼层 LC
8 自然村 ZRC 18 户室号 HSH
9 一级道路 YJLX 19 其它 OTHER
10 二级道路 EJLX
表1中,一级道路是指连接重要政治经济文化中心、部分立交的公路。
二级道路是指连接政治、经济中心或大工矿区的干线公路、或运输繁忙的城郊公路。
一级小区一般符合以下标准:设有服务接待中心,公示24小时服务电话;急修半小时内,其他报修按双方约定时间到达现场;载人电梯24小时正常运行;路度灯、道路完好率不低于95%;小区业主出入口24小时站岗值勤;按幢设置垃圾桶,每日清运2次;小区道路、绿地每日清扫2次;楼梯扶手每日擦洗1次等。
二级小区一般符合以下标准:设有服务接待中心,公示16小时服务电话;急修1小时内,其他报修按双方约定时间到达现场;载人电梯24小时正常运行;路灯、道路完好率不低于80%;小区业主出入口24小时站岗值勤;按幢设置垃圾桶,每日清运1次;小区道路、绿地每日清扫1次;楼梯内扶手每周擦洗1次等。
建筑物一般指供人在内居住、工作、学习、娱乐、储藏物品或进行其他活动的空间场所,比如金融中心和市民广场等。
其它指没有具体含义的地址信息,比如向东(或西、或南、或北、或西南等)100米(或200米,具体不做限定)等。
需要说明的是:(1)表1示出的地址等级仅为一种示例性说明,表1中示出的地址等级的代码仅为一种可能的示例,在其它可能的示例中,地址等级可以采用划分成其它形式,比如行政区域等级、关键信息等级和POI等级;相应地,地址等级的代码也可以采用其它形式表现,比如数字、字母、字符或数字与字母的结合等,具体不做限定;(2)虽然表1中示出了19种地址等级,但对于一个地址而言,并不会包括所有的地址等级,这也是传统的创建词库的方式无法对地址分词进行准确识别的原因。
无论是地址分词还是地址等级,都可以采用预设的地址识别模型识别。其中,预设的地址识别模型可以是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的。
其中,初始的地址识别模型可以是多种类型的模型,例如,可以是BERT(Bidirectional Encoder Representations from Transformers)模型,或者也可以是是ELMo模型、Fine-tuneTransformer模型,具体不做限定。
以BERT模型为例,预设的地址识别模型可以是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对BERT模型进行训练后得到的。下面对训练过程进行详细描述。
BERT模型用Transformer的双向编码器表示,旨在通过联合调节所有层中的上下文来预先训练深度双向表示。
具体的训练过程如下:根据样本地址以及样本地址分词,对BERT模型中的分词功能进行训练;以及,根据样本地址分词以及每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;进而,根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到预设的地址识别模型。其中,样本地址可以是标准地址。
采用BERT模型中的分词功能,将样本地址通过前向最大长度匹配和逆向最大长度匹配的方法,将样本地址划分为多个样本地址分词。
采用BERT模型中的序列标注功能,对样本地址的进行分词和分级,增加上下文语义的学习以及地址分词所在的语句的学习,赋予每个样本地址分词具体的地址等级业务含义。
示例性地,样本地址中包含“怀黄公路与渤三路交叉口”,对应的样本地址分词包括“怀黄公路”、“与”、“渤三路”和“交叉口”;其中,“怀黄公路”对应的地址等级是一级道路,“与”对应的地址等级是其它,“渤三路”对应的地址等级是二级道路,“交叉口”对应的地址等级是建筑物。
进一步地,当样本地址为“道路1+与+道路2+交叉口“的格式时,通过模型学习后拆分为上述示例中的地址分词,通过一级道路、二级道路和建筑物这三个关键词,精确进行地址匹配。
示例性地,样本地址中包含“通惠河北路郎家园6号郎园VINTAGE南门3号楼1层”,对应的样本地址分词包括“通惠河北路”、“郎家园”、“6号”、“郎园VINTAGE”、“南门”、“3号楼”和“1层”;其中,“通惠河北路”对应的地址等级是一级道路,“郎家园”对应的地址等级是社区,“6号”对应的地址等级是建筑楼栋,“郎园VINTAGE”对应的地址等级是一级小区,“南门”对应的地址等级是其它,“3号楼”对应的地址等级是建筑楼栋,“1层”对应的地址等级是楼层。
通过BERT模型的序列化学习,可以准确完整的将“朗园VINTAGE”拆分在一起,并且分级准确。
示例性地,样本地址中包含“顺义区李桥镇北河村学校西巷29号”,对应的样本地址分词包括“顺义区”、“李桥镇”、“北河村学校”、“西巷”和“29号”;其中,“顺义区”对应的地址等级是区,“李桥镇”对应的地址等级是乡镇,“北河村学校”对应的地址等级是一级小区,“西巷”对应的地址等级是一级道路,“29号”对应的地址等级是门牌号。
采用样本地址、样本地址分词以及样本地址分词对应的地址等级,训练得到的预设的地址识别模型,可以用于识别待匹配地址。下面,对预设的地址识别模型识别待匹配地址进行距离说明。
假设待匹配地址是“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”时,经预设的地址识别模型识别后,得到的结果可以如表2所示。
表2:预设的地址识别模型识别结果的一种示例
Figure BDA0002507451900000071
从表2中可以看出,待匹配地址分词可以仅对应一个地址等级,例如,“云岩区”对应“区”这一地址等级,“中东社区服务中心”对应“社区”这一地址等级,“东山居委会”对应“居委会”这一地址等级,“东山巷”对应“一级道路”这一地址等级,“4单元”对应“单元”这一地址等级,“7层”对应“楼层”这一地址等级。
待匹配地址分词也可以对应多个地址等级,例如,“5号”可以对应“户室号”、“建筑楼栋”和“门牌号”这三个地址等级。
当待匹配地址分词对应多个地址等级时,为了最大程度地保留分词的信息可能性,可以采用笛卡尔积的方式,把可能的结果呈现出来。
以表2示出的内容为例,待匹配地址分词包括:['7层','4单元','5号','东山巷','宝山北路居委会','中东社区服务中心','云岩区'];相应地,每个分词的可能分级为(为了便于描述,以地址等级的代码表示):[['QU'],['SQ'],['JWH'],['YJLX'],['HSH','LDH','MPH'],['DY'],['LC']];进行笛卡尔积组合后,可能的结果如下:
结果1:['QU','SQ','JWH','YJLX','HSH','DY','LC'];
结果2:['QU','SQ','JWH','YJLX','LDH','DY','LC'];
结果3:['QU','SQ','JWH','YJLX','MPH','DY','LC']。
将待匹配地址分词与待匹配地址分词的分词等级进行合并后,得到以下三种组合:
组合1:{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','HSH':'5号','DY':'4单元','LC':'7层'};
组合2:{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','LDH':'5号','DY':'4单元','LC':'7层'};
组合3:{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','MPH':'5号','DY':'4单元','LC':'7层'}。
需要说明的是,以上三种组合都有可能是待匹配地址的真实结果,因此,预设的地址识别模型可以把这三种组合作为输出结果,进行输出。
步骤103中,预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的,标准地址中的关键信息是能够区分地址的关键所在。示例性地,预设的关键地址等级可以包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。
进一步地,考虑到待匹配地址分词可以仅对应一个地址等级,也可以对应多个地址等级。当待匹配地址分词可以仅对应一个地址等级时,只需要判断该待匹配地址分词对应的地址等级是否为预设的关键地址等级,如果是预设的关键地址等级,则可以确定该待匹配地址分词是关键地址分词。
以表2中示出的内容为例,针对“东山巷”这一地址分词对应的地址等级“一级道路”,由于“一级道路”是预设的关键地址等级,因此,“东山巷”是关键地址分词。
当待匹配地址分词对应多个地址等级时,针对第一地址等级,如果第一地址等级与预设的关键地址等级相匹配,则将待匹配地址分词确定为关键地址分词;其中,第一地址等级为待匹配地址分词对应多个地址等级中的任一地址等级。
也就是说,当待匹配地址分词对应多个地址等级时,只要有一个地址等级与预设的关键地址等级相匹配,就可以将该待匹配地址分词确定为关键地址分词。
以表2中示出的内容为例,针对“5号”这一地址分词对应的地址等级“户室号”、“建筑楼栋”和“门牌号”,由于“建筑楼栋”和“门牌号”都是预设的关键地址等级,因此,“5号”是关键地址分词。
步骤104中,预设标准地址库中可以存储有多个标准地址。如表3所示,为预设标准地址库的一种示例。
表3:预设标准地址库的一种示例
序号 标准地址
标准地址1 贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号3单元7层
标准地址2 贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号1单元6层
标准地址3 贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层
标准地址4 贵州省贵阳市南明区栖霞社区服务中心螺丝山路78号
标准地址5 山西省太原市小店区玉泉社区东山巷5号6单元7层
本申请实施例中,确定候选地址的方式有多种,第一个示例中,可以以关键地址分词为索引,从所述预设标准地址库中搜索得到候选地址。
举个例子,假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”,关键地址分词是“东山巷”和“5号”,根据表1示出的内容,可以确定候选地址包括标准地址1、标准地址2、标准地址3和标准地址4。
第二个示例中,可以以关键地址分词为索引,从预设标准地址库中搜索得到初始候选地址;然后,根据预设的行政区域地址等级以及每个待匹配地址分词对应的地址等级,从多个待匹配地址分词中确定出与预设的行政区域地址等级相匹配的行政区域地址分词;最后,以行政区域地址分词为索引,从初始候选地址中搜索得到候选地址。其中,预设的行政区域地址等级包括省、市和区。
举个例子,假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”,关键地址分词是“东山巷”和“5号”,根据表1示出的内容,可以确定初始候选地址包括标准地址1、标准地址2、标准地址3和标准地址4,而行政区域地址分词是“云岩区”,最终确定出的候选地址包括标准地址1、标准地址2和标准地址3。
相比于第一个示例示出的方法,采用第二个示例可以将明显不属于同一个行政区域的地址排除掉,从而可以降低地址匹配的运算量,提高地址匹配的匹配效率。
步骤105中,可以确定每个候选地址与待匹配地址之间的相似度,再将相似度最高的候选地址,确定为目标地址。
其中,候选地址与待匹配地址之间的相似度可以通过多种方式来确定,例如,可以分别计算各个候选地址与待匹配地址之间的编辑距离,然后将编辑距离最小的候选地址确定为目标地址。
举个例子,假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”,关键地址分词是“东山巷”和“5号”,根据表1示出的内容,候选地址包括以下三种:
候选地址1:贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号3单元7层;
候选地址2:贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号1单元6层;
候选地址3:贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层。
通过计算,可以得到候选地址1与待匹配地址之间的编辑距离为1;候选地址2与待匹配地址之间的编辑距离为2;候选地址3与待匹配地址之间的编辑距离为0。可见,候选地址3与待匹配地址之间的编辑距离最小,因此,可以将候选地址3确定为目标地址。
需要说明的是,上述计算候选地址与待匹配地址之间的编辑距离,进而确定相似度的方式仅为一种可能的实现方式,本领域技术人员可以根据经验和实际情况选择其它方式确定相似度,例如相似度比对,具体不做限定。
为了更加清楚地描述本申请实施例提供的地址匹配方法,下面结合图3,对地址匹配流程进行整体性地描述。
如图3所示,本申请实施例中,地址匹配方法包括三个部分:标准地址预处理、地址分段分级和地址匹配。
其中,标准地址预处理是对标准地址进行预处理处理,预处理的方式可以包括去重、筛选掉明显错误的地址等处理方式。经预处理后,可以得到处理前的标准地址和处理后的标准地址之间的对应关系。
地址分段分级是即将标准地址进行分词,并标注出每个分词对应的地址等级。
地址匹配包括两个部分,即模型建立和模型匹配。模型建立是分段分级后的标准地址可以作为样本地址,对初始的地址识别模型进行训练,从而得到预设的地址识别模型。模型匹配是采用预设的地址识别模型对待匹配地址进行识别,确定待匹配分词和待匹配分词对应的地址等级,然后根据预设的关键地址等级和预设的行政区域地址等级,从预设标准地址库中筛选出目标地址。其中,预设标准地址库可以是根据预处理后的标准地址确定的。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4示例性示出了本申请实施例提供的一种地址匹配装置的结构示意图。如图4所示,该装置具有实现上述地址匹配方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:获取单元401、识别单元402和处理单元403。
获取单元401,用于获取待匹配地址;
识别单元402,用于采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
处理单元403,用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;以及,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;以及,将与所述待匹配地址相似度最高的候选地址,确定为目标地址。
可选地,所述处理单元403具体用于:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;以及,根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;以及,以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。
可选地,当待匹配地址分词对应多个地址等级时,所述处理单元403具体用于:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。
可选地,所述预设的地址识别模型通过以下方式得到:
根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;
根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;
根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。
可选地,所述处理单元403具体用于:
分别计算各个所述候选地址与所述待匹配地址之间的编辑距离;以及,将编辑距离最小的候选地址确定为所述目标地址。
可选地,待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。
可选地,所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。
本申请实施例中,采用预设的地址识别模型,识别出待匹配地址对应的待匹配地址分词,以及每个待匹配地址分词对应的地址等级,根据预设的关键地址等级与每个待匹配地址分词对应的地址等级,从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词,进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址,并将与待匹配地址相似度最高的候选地址,确定为目标地址。如此,相比于现有技术中基于相似度计算的地址匹配技术而言,本申请实施例在相似度计算之前,根据预设的关键地址等级,从待匹配地址分词中筛选出关键地址分词,并以关键地址分词为索引,从预设标准地址库中筛选出候选地址,从而可以减少候选地址的数量,降低运算量;同时,由于候选地址是根据关键地址分词筛选出的,而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的,因此,可以保证关键地址分词是待匹配地址中的关键信息,进而可以缩小候选地址与待匹配地址之间的差距,提高地址匹配技术的匹配准确度。
图5为本发明实施例提供的电子设备硬件结构示意图。如图5所示,本发明实施例提供的电子设备包括:存储器501,用于存储程序指令;处理器502,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的址匹配方法。
本实施例中,处理器502和存储器501可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当址匹配装置的至少一个处理器执行所述计算机程序时,址匹配装置执行上述实施例所述的址匹配方法。
所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种地址匹配方法,其特征在于,所述方法包括:
获取待匹配地址;
采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;
从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;
将与所述待匹配地址相似度最高的候选地址,确定为目标地址。
2.根据权利要求1所述的方法,其特征在于,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址,包括:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;
根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;
以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。
3.根据权利要求1所述的方法,其特征在于,当待匹配地址分词对应多个地址等级时,根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词,包括:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。
4.根据权利要求1所述的方法,其特征在于,所述预设的地址识别模型通过以下方式得到:
根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;
根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;
根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。
5.根据权利要求1所述的方法,其特征在于,将与所述待匹配地址相似度最高的候选地址,确定为目标地址,包括:
分别计算各个所述候选地址与所述待匹配地址之间的编辑距离;
将编辑距离最小的候选地址确定为所述目标地址。
6.根据权利要求1至5中任一项所述的方法,其特征在于,待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。
7.根据权利要求6所述的方法,其特征在于,所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。
8.一种地址匹配装置,其特征在于,所述装置包括:
获取单元,用于获取待匹配地址;
识别单元,用于采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
处理单元,用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;以及,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;以及,将与所述待匹配地址相似度最高的候选地址,确定为目标地址。
9.根据权利要求8所述的装置,其特征在于,所述处理单元具体用于:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;以及,根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;以及,以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。
10.根据权利要求8所述的装置,其特征在于,当待匹配地址分词对应多个地址等级时,所述处理单元具体用于:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。
CN202010450289.2A 2020-05-25 2020-05-25 地址匹配方法及装置 Active CN111625732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010450289.2A CN111625732B (zh) 2020-05-25 2020-05-25 地址匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010450289.2A CN111625732B (zh) 2020-05-25 2020-05-25 地址匹配方法及装置

Publications (2)

Publication Number Publication Date
CN111625732A CN111625732A (zh) 2020-09-04
CN111625732B true CN111625732B (zh) 2023-06-23

Family

ID=72259983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010450289.2A Active CN111625732B (zh) 2020-05-25 2020-05-25 地址匹配方法及装置

Country Status (1)

Country Link
CN (1) CN111625732B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527933A (zh) * 2020-12-04 2021-03-19 重庆市地理信息和遥感应用中心 一种基于空间位置和文本训练的中文地址关联方法
CN114637812A (zh) * 2020-12-15 2022-06-17 顺丰恒通支付有限公司 基于物流信息的物流主体匹配方法、装置和计算机设备
CN112835899B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址库索引方法、地址匹配方法以及相关设备
CN112835922B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址区划分类方法、系统、设备及存储介质
CN112818666B (zh) * 2021-01-29 2024-07-02 上海寻梦信息技术有限公司 地址识别方法、装置、电子设备和存储介质
CN113592037B (zh) * 2021-08-26 2023-11-24 吉奥时空信息技术股份有限公司 一种基于自然语言推断的地址匹配方法
CN114756654A (zh) * 2022-04-25 2022-07-15 广州城市信息研究所有限公司 动态地名地址匹配方法、装置、计算机设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014206182A1 (zh) * 2013-06-28 2014-12-31 深圳市华傲数据技术有限公司 一种企业数据匹配方法和装置
CN104462059A (zh) * 2014-12-01 2015-03-25 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN105512121A (zh) * 2014-09-23 2016-04-20 北京汇通天下物联科技有限公司 基于关键词的地址查询方法
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109299402A (zh) * 2018-07-23 2019-02-01 广州都市圈网络科技有限公司 基于要素预分段的地址匹配方法
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014206182A1 (zh) * 2013-06-28 2014-12-31 深圳市华傲数据技术有限公司 一种企业数据匹配方法和装置
CN105512121A (zh) * 2014-09-23 2016-04-20 北京汇通天下物联科技有限公司 基于关键词的地址查询方法
CN104462059A (zh) * 2014-12-01 2015-03-25 银联智惠信息服务(上海)有限公司 商户地址信息识别方法和装置
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置
CN105159949A (zh) * 2015-08-12 2015-12-16 北京京东尚科信息技术有限公司 一种中文地址分词方法及系统
CN106598953A (zh) * 2016-12-28 2017-04-26 上海博辕信息技术服务有限公司 地址解析方法及装置
CN109299402A (zh) * 2018-07-23 2019-02-01 广州都市圈网络科技有限公司 基于要素预分段的地址匹配方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法
CN109344263A (zh) * 2018-08-01 2019-02-15 昆明理工大学 一种地址匹配方法
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN109960795A (zh) * 2019-02-18 2019-07-02 平安科技(深圳)有限公司 一种地址信息标准化方法、装置、计算机设备及存储介质
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置

Also Published As

Publication number Publication date
CN111625732A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111625732B (zh) 地址匹配方法及装置
CN108628811B (zh) 地址文本的匹配方法和装置
CN107145577A (zh) 地址标准化方法、装置、存储介质及计算机
CN103514235B (zh) 一种增量码库的建立方法和装置
CN114065364B (zh) 基于无人机遥感测绘的城市工程规划方法及系统
CN112527933A (zh) 一种基于空间位置和文本训练的中文地址关联方法
CN111324679A (zh) 地址信息的处理方法、装置和系统
CN112988715B (zh) 一种基于开源方式的全球网络地名数据库的构建方法
CN111782741A (zh) 兴趣点挖掘方法、装置、电子设备及存储介质
CN109522335B (zh) 一种信息获取方法、装置及计算机可读存储介质
CN106874384A (zh) 一种异构地址标准转换及匹配方法
CN111488409A (zh) 一种城市地址库构建方法、检索方法及装置
Zhou et al. Building use and mixed-use classification with a transformer-based network fusing satellite images and geospatial textual information
Walford Bringing historical British Population Census records into the 21st century: A method for geocoding households and individuals at their early‐20th‐century addresses
CN115100395A (zh) 一种融合poi预分类和图神经网络的城市街区功能分类方法
CN116955541B (zh) 融合地理要素语义分割与相似度的地址匹配方法和系统
CN118014297A (zh) 一种户外健身设施供需响应度智能评测方法及系统
CN116244395A (zh) 基于城市道路和poi数据的区域类型判别方法、装置及设备
CN113361233B (zh) 一种标准地址与建筑物关联匹配方法及装置
CN115292437A (zh) 一种空间推理的地址反算定位方法
CN110610446A (zh) 一种基于两步聚类思路的县域城镇分类方法
CN113536781A (zh) 地址识别方法及装置、可读存储介质、终端
CN116484859A (zh) 警情空间位置定位的方法及相关产品
EP4439410A1 (en) Methods and systems for preventing the demolition, damage and alteration of listed buildings
Bernardin et al. TMIP How-To: Create Travelshed TAZs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant