CN111625732B

CN111625732B - 地址匹配方法及装置

Info

Publication number: CN111625732B
Application number: CN202010450289.2A
Authority: CN
Inventors: 张瑞飞; 郭孟振; 单培
Original assignee: Dingfu Intelligent Technology Co ltd
Current assignee: Dingfu Intelligent Technology Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-06-23
Anticipated expiration: 2040-05-25
Also published as: CN111625732A

Abstract

本申请提供了一种地址匹配方法及装置。所述方法包括：采用预设的地址识别模型，识别出待匹配地址对应的待匹配地址分词，以及每个待匹配地址分词对应的地址等级，根据预设的关键地址等级，从多个待匹配地址分词中确定出关键地址分词，进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址，并将与待匹配地址相似度最高的候选地址，确定为目标地址。由于候选地址是根据关键地址分词筛选出的，而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的，因此，可以保证关键地址分词是待匹配地址中的关键信息，进而可以缩小候选地址与待匹配地址之间的差距，提高地址匹配技术的匹配准确度。

Description

地址匹配方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种地址匹配方法及装置。

背景技术

古往今来，几乎人类所有活动都是发生在地球上，都与地球表面位置(即地理空间位置)息息相关，随着计算机技术的日益发展和普及，地理信息系统(GeographyInformation System，GIS)以及在此基础上发展起来的“数字地球”、“数字城市”在人们的生产和生活中起着越来越重要的作用。

GIS系统的建立，需要大量的地理空间位置数据支撑。但现有的地址数据库中保存这大量与地理空间位置相关的非空间数据(即自然语言描述的地址信息)，这些非空间数据不能准确地转换为空间数据(即空间的地理位置坐标)，进而也无法为GIS系统的建立提供支撑。

现有技术通常采用地址匹配技术解决上述问题，即建立自然语言描述的地址信息与其空间的地理位置坐标之间的对应关系。具体实现时，首先要将自然语言描述的地址信息匹配到标准地址，然后再根据标准地址的地理位置坐标，确定自然语言描述的地址信息的地理位置坐标。这一过程的难点在于自然语言描述的地址信息与标准地址之间的匹配准确度，目前常用的方案是相似度计算，即计算待匹配地址与标准地址之间的相似度值，相似度值越高，越匹配。但是，在一个城市中常有相近的道路名称(如南京东路和南京西路)、相近的建筑名称(如万达广场和万科广场)或相近的小区名称(如鼓楼一村和鼓楼新村)，这就容易导致相似度值较高的两个地址，实际上是相距甚远的两个地方，进而影响地址匹配技术的匹配准确度。

基于此，目前亟需一种地址匹配方法，用于解决现有技术中基于相似度计算的地址匹配技术，容易导致相似度值较高的两个地址，实际上是相距甚远的两个地方，进而影响地址匹配技术的匹配准确度的问题。

发明内容

本申请提供了一种地址匹配方法及装置，可用于解决在现有技术中基于相似度计算的地址匹配技术，容易导致相似度值较高的两个地址，实际上是相距甚远的两个地方，进而影响地址匹配技术的匹配准确度的技术问题。

第一方面，本申请实施例提供一种地址匹配方法，所述方法包括：

获取待匹配地址；

采用预设的地址识别模型，从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级；所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的；

根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词；所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的；

从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址；所述预设标准地址库中存储有多个标准地址；

将与所述待匹配地址相似度最高的候选地址，确定为目标地址。

结合第一方面，在第一方面的一种可实现方式中，从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址，包括：

以所述关键地址分词为索引，从所述预设标准地址库中搜索得到初始候选地址；

根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词；

以所述行政区域地址分词为索引，从所述初始候选地址中搜索得到所述候选地址。

结合第一方面，在第一方面的一种可实现方式中，当待匹配地址分词对应多个地址等级时，根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词，包括：

针对第一地址等级，如果所述第一地址等级与所述预设的关键地址等级相匹配，则将所述待匹配地址分词确定为所述关键地址分词；所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。

结合第一方面，在第一方面的一种可实现方式中，所述预设的地址识别模型通过以下方式得到：

根据所述样本地址以及所述样本地址分词，对BERT模型中的分词功能进行训练；

根据所述样本地址分词以及所述每个样本分词对应的地址等级，对BERT模型中的序列标注功能进行训练；

根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能，得到所述预设的地址识别模型。

结合第一方面，在第一方面的一种可实现方式中，将与所述待匹配地址相似度最高的候选地址，确定为目标地址，包括：

分别计算各个所述候选地址与所述待匹配地址之间的编辑距离；

将编辑距离最小的候选地址确定为所述目标地址。

结合第一方面，在第一方面的一种可实现方式中，待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。

结合第一方面，在第一方面的一种可实现方式中，所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。

第二方面，本申请实施例提供一种地址匹配装置，所述装置包括：

获取单元，用于获取待匹配地址；

识别单元，用于采用预设的地址识别模型，从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级；所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的；

处理单元，用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词；所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的；以及，从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址；所述预设标准地址库中存储有多个标准地址；以及，将与所述待匹配地址相似度最高的候选地址，确定为目标地址。

结合第二方面，在第二方面的一种可实现方式中，所述处理单元具体用于：

以所述关键地址分词为索引，从所述预设标准地址库中搜索得到初始候选地址；以及，根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词；以及，以所述行政区域地址分词为索引，从所述初始候选地址中搜索得到所述候选地址。

结合第二方面，在第二方面的一种可实现方式中，当待匹配地址分词对应多个地址等级时，所述处理单元具体用于：

结合第二方面，在第二方面的一种可实现方式中，所述预设的地址识别模型通过以下方式得到：

分别计算各个所述候选地址与所述待匹配地址之间的编辑距离；以及，将编辑距离最小的候选地址确定为所述目标地址。

结合第二方面，在第二方面的一种可实现方式中，待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。

结合第二方面，在第二方面的一种可实现方式中，所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。

本申请实施例中，采用预设的地址识别模型，识别出待匹配地址对应的待匹配地址分词，以及每个待匹配地址分词对应的地址等级，根据预设的关键地址等级与每个待匹配地址分词对应的地址等级，从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词，进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址，并将与待匹配地址相似度最高的候选地址，确定为目标地址。如此，相比于现有技术中基于相似度计算的地址匹配技术而言，本申请实施例在相似度计算之前，根据预设的关键地址等级，从待匹配地址分词中筛选出关键地址分词，并以关键地址分词为索引，从预设标准地址库中筛选出候选地址，从而可以减少候选地址的数量，降低运算量；同时，由于候选地址是根据关键地址分词筛选出的，而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的，因此，可以保证关键地址分词是待匹配地址中的关键信息，进而可以缩小候选地址与待匹配地址之间的差距，提高地址匹配技术的匹配准确度。

附图说明

图1为本申请实施例提供一种地址匹配方法所对应的流程示意图；

图2为标准地址的一种示意图；

图3为本申请实施例提供的一种整体性的地址匹配流程的示意图；

图4为本申请实施例提供的一种地址匹配装置的结构示意图；

图5为本发明实施例提供的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

考虑到现有技术中采用相似度计算的方法容易出现误差的情况，例如，待匹配地址是“成都市锦江区梨花街东万达广场2楼”，标准地址A是“成都市锦江区梨花街东万科小区2栋”，标准地址B是“成都市梨花街东万达广场3层”，采用相似度技术的方法，待匹配地址与标准地址A之间的相似度(相差4个字)显然高于待匹配地址与标准地址B之间(相差5个字)的相似度。但是，从真实情况来看，待匹配地址中的“万达广场”与标准地址A中的“万科小区”显然不是同一个地点，这就会导致地址匹配出现错误，进而影响地址匹配技术的匹配准确度。

为了解决上述问题，请参考图1，其示例性示出了本申请实施例提供一种地址匹配方法所对应的流程示意图，具体包括如下步骤：

步骤101，获取待匹配地址。

步骤102，采用预设的地址识别模型，从待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级。

步骤103，根据预设的关键地址等级与每个待匹配地址分词对应的地址等级，从多个待匹配地址分词中确定出与预设的关键地址等级相匹配的关键地址分词。

步骤104，从预设标准地址库中确定出与关键地址分词相匹配的候选地址。

步骤105，将与待匹配地址相似度最高的候选地址，确定为目标地址。

进一步地，本申请实施例中还采用样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练，从而得到预设的地址识别模型，该模型对待匹配地址分段分级，通过泛化能力解决地址分词的完整性和分词边界的准确性。

具体来说，步骤101中，待匹配地址可以来源于各行各业的地址数据库，例如可以来源于快递行业的地址数据库，或者也可以来源于城市交通行业的地址数据库，具体不做限定。

标准地址可以是公安部门牌地址数据标准的地址。标准地址从逻辑上可以分为三部分，即行政区、关键信息、信息点(Point of Interesting，POI)。如图2所示，为标准地址的一种示意图。

从图2中可以看出，标准地址可以是“北京市朝阳区来广营乡广华居2号楼6单元201室”，其中，“北京市朝阳区来广营乡”是行政区，“广华居2号楼”是关键信息，“6单元201室”是信息点。

待匹配地址来源广泛，且大多是人为录入的，这就容易造成待匹配地址在格式上标准化不足，相比于标准地址而言，可能出现信息遗漏的问题。

举个例子，待匹配地址可以是“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”，相比于标准地址，待匹配地址中缺少行政区(即省、市)。标准地址应该是“贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”。

步骤102中，在获取到待匹配地址之后，可以采用预设的地址识别模型进行识别，从而确定出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级。

其中，地址等级可以按行政区域等级进行划分。待匹配地址分词对应的地址等级可以包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。

如表1所示，为地址等级的一种示例。

表1：地址等级的一种示例

序号	地址等级	地址等级的代码	序号	地址等级	地址等级的代码
						1	省	SHNEG	11	门牌号	MPH
2	市	SHI	12	一级小区	YJXQ
						3	区	QU	13	二级小区	EJXQ
4	街道办事处	JDBSC	14	建筑物	JZW
						5	社区	SQ	15	单元	DY
6	居委会	JWH	16	建筑楼栋	LDH
						7	乡镇	ZHEN	17	楼层	LC
8	自然村	ZRC	18	户室号	HSH
						9	一级道路	YJLX	19	其它	OTHER
10	二级道路	EJLX

表1中，一级道路是指连接重要政治经济文化中心、部分立交的公路。

二级道路是指连接政治、经济中心或大工矿区的干线公路、或运输繁忙的城郊公路。

一级小区一般符合以下标准：设有服务接待中心，公示24小时服务电话；急修半小时内，其他报修按双方约定时间到达现场；载人电梯24小时正常运行；路度灯、道路完好率不低于95％；小区业主出入口24小时站岗值勤；按幢设置垃圾桶，每日清运2次；小区道路、绿地每日清扫2次；楼梯扶手每日擦洗1次等。

二级小区一般符合以下标准：设有服务接待中心，公示16小时服务电话；急修1小时内，其他报修按双方约定时间到达现场；载人电梯24小时正常运行；路灯、道路完好率不低于80％；小区业主出入口24小时站岗值勤；按幢设置垃圾桶，每日清运1次；小区道路、绿地每日清扫1次；楼梯内扶手每周擦洗1次等。

建筑物一般指供人在内居住、工作、学习、娱乐、储藏物品或进行其他活动的空间场所，比如金融中心和市民广场等。

其它指没有具体含义的地址信息，比如向东(或西、或南、或北、或西南等)100米(或200米，具体不做限定)等。

需要说明的是：(1)表1示出的地址等级仅为一种示例性说明，表1中示出的地址等级的代码仅为一种可能的示例，在其它可能的示例中，地址等级可以采用划分成其它形式，比如行政区域等级、关键信息等级和POI等级；相应地，地址等级的代码也可以采用其它形式表现，比如数字、字母、字符或数字与字母的结合等，具体不做限定；(2)虽然表1中示出了19种地址等级，但对于一个地址而言，并不会包括所有的地址等级，这也是传统的创建词库的方式无法对地址分词进行准确识别的原因。

无论是地址分词还是地址等级，都可以采用预设的地址识别模型识别。其中，预设的地址识别模型可以是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的。

其中，初始的地址识别模型可以是多种类型的模型，例如，可以是BERT(Bidirectional Encoder Representations from Transformers)模型，或者也可以是是ELMo模型、Fine-tuneTransformer模型，具体不做限定。

以BERT模型为例，预设的地址识别模型可以是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对BERT模型进行训练后得到的。下面对训练过程进行详细描述。

BERT模型用Transformer的双向编码器表示，旨在通过联合调节所有层中的上下文来预先训练深度双向表示。

具体的训练过程如下：根据样本地址以及样本地址分词，对BERT模型中的分词功能进行训练；以及，根据样本地址分词以及每个样本分词对应的地址等级，对BERT模型中的序列标注功能进行训练；进而，根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能，得到预设的地址识别模型。其中，样本地址可以是标准地址。

采用BERT模型中的分词功能，将样本地址通过前向最大长度匹配和逆向最大长度匹配的方法，将样本地址划分为多个样本地址分词。

采用BERT模型中的序列标注功能，对样本地址的进行分词和分级，增加上下文语义的学习以及地址分词所在的语句的学习，赋予每个样本地址分词具体的地址等级业务含义。

示例性地，样本地址中包含“怀黄公路与渤三路交叉口”，对应的样本地址分词包括“怀黄公路”、“与”、“渤三路”和“交叉口”；其中，“怀黄公路”对应的地址等级是一级道路，“与”对应的地址等级是其它，“渤三路”对应的地址等级是二级道路，“交叉口”对应的地址等级是建筑物。

进一步地，当样本地址为“道路1+与+道路2+交叉口“的格式时，通过模型学习后拆分为上述示例中的地址分词，通过一级道路、二级道路和建筑物这三个关键词，精确进行地址匹配。

示例性地，样本地址中包含“通惠河北路郎家园6号郎园VINTAGE南门3号楼1层”，对应的样本地址分词包括“通惠河北路”、“郎家园”、“6号”、“郎园VINTAGE”、“南门”、“3号楼”和“1层”；其中，“通惠河北路”对应的地址等级是一级道路，“郎家园”对应的地址等级是社区，“6号”对应的地址等级是建筑楼栋，“郎园VINTAGE”对应的地址等级是一级小区，“南门”对应的地址等级是其它，“3号楼”对应的地址等级是建筑楼栋，“1层”对应的地址等级是楼层。

通过BERT模型的序列化学习，可以准确完整的将“朗园VINTAGE”拆分在一起，并且分级准确。

示例性地，样本地址中包含“顺义区李桥镇北河村学校西巷29号”，对应的样本地址分词包括“顺义区”、“李桥镇”、“北河村学校”、“西巷”和“29号”；其中，“顺义区”对应的地址等级是区，“李桥镇”对应的地址等级是乡镇，“北河村学校”对应的地址等级是一级小区，“西巷”对应的地址等级是一级道路，“29号”对应的地址等级是门牌号。

采用样本地址、样本地址分词以及样本地址分词对应的地址等级，训练得到的预设的地址识别模型，可以用于识别待匹配地址。下面，对预设的地址识别模型识别待匹配地址进行距离说明。

假设待匹配地址是“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”时，经预设的地址识别模型识别后，得到的结果可以如表2所示。

表2：预设的地址识别模型识别结果的一种示例

从表2中可以看出，待匹配地址分词可以仅对应一个地址等级，例如，“云岩区”对应“区”这一地址等级，“中东社区服务中心”对应“社区”这一地址等级，“东山居委会”对应“居委会”这一地址等级，“东山巷”对应“一级道路”这一地址等级，“4单元”对应“单元”这一地址等级，“7层”对应“楼层”这一地址等级。

待匹配地址分词也可以对应多个地址等级，例如，“5号”可以对应“户室号”、“建筑楼栋”和“门牌号”这三个地址等级。

当待匹配地址分词对应多个地址等级时，为了最大程度地保留分词的信息可能性，可以采用笛卡尔积的方式，把可能的结果呈现出来。

以表2示出的内容为例，待匹配地址分词包括：['7层','4单元','5号','东山巷','宝山北路居委会','中东社区服务中心','云岩区']；相应地，每个分词的可能分级为(为了便于描述，以地址等级的代码表示)：[['QU'],['SQ'],['JWH'],['YJLX'],['HSH','LDH','MPH'],['DY'],['LC']]；进行笛卡尔积组合后，可能的结果如下：

结果1：['QU','SQ','JWH','YJLX','HSH','DY','LC']；

结果2：['QU','SQ','JWH','YJLX','LDH','DY','LC']；

结果3：['QU','SQ','JWH','YJLX','MPH','DY','LC']。

将待匹配地址分词与待匹配地址分词的分词等级进行合并后，得到以下三种组合：

组合1：{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','HSH':'5号','DY':'4单元','LC':'7层'}；

组合2：{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','LDH':'5号','DY':'4单元','LC':'7层'}；

组合3：{'QU':'云岩区','SQ':'中东社区服务中心','JWH':'宝山北路居委会','YJLX':'东山巷','MPH':'5号','DY':'4单元','LC':'7层'}。

需要说明的是，以上三种组合都有可能是待匹配地址的真实结果，因此，预设的地址识别模型可以把这三种组合作为输出结果，进行输出。

步骤103中，预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的，标准地址中的关键信息是能够区分地址的关键所在。示例性地，预设的关键地址等级可以包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。

进一步地，考虑到待匹配地址分词可以仅对应一个地址等级，也可以对应多个地址等级。当待匹配地址分词可以仅对应一个地址等级时，只需要判断该待匹配地址分词对应的地址等级是否为预设的关键地址等级，如果是预设的关键地址等级，则可以确定该待匹配地址分词是关键地址分词。

以表2中示出的内容为例，针对“东山巷”这一地址分词对应的地址等级“一级道路”，由于“一级道路”是预设的关键地址等级，因此，“东山巷”是关键地址分词。

当待匹配地址分词对应多个地址等级时，针对第一地址等级，如果第一地址等级与预设的关键地址等级相匹配，则将待匹配地址分词确定为关键地址分词；其中，第一地址等级为待匹配地址分词对应多个地址等级中的任一地址等级。

也就是说，当待匹配地址分词对应多个地址等级时，只要有一个地址等级与预设的关键地址等级相匹配，就可以将该待匹配地址分词确定为关键地址分词。

以表2中示出的内容为例，针对“5号”这一地址分词对应的地址等级“户室号”、“建筑楼栋”和“门牌号”，由于“建筑楼栋”和“门牌号”都是预设的关键地址等级，因此，“5号”是关键地址分词。

步骤104中，预设标准地址库中可以存储有多个标准地址。如表3所示，为预设标准地址库的一种示例。

表3：预设标准地址库的一种示例

序号	标准地址
		标准地址1	贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号3单元7层
标准地址2	贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号1单元6层
		标准地址3	贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层
标准地址4	贵州省贵阳市南明区栖霞社区服务中心螺丝山路78号
		标准地址5	山西省太原市小店区玉泉社区东山巷5号6单元7层

本申请实施例中，确定候选地址的方式有多种，第一个示例中，可以以关键地址分词为索引，从所述预设标准地址库中搜索得到候选地址。

举个例子，假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”，关键地址分词是“东山巷”和“5号”，根据表1示出的内容，可以确定候选地址包括标准地址1、标准地址2、标准地址3和标准地址4。

第二个示例中，可以以关键地址分词为索引，从预设标准地址库中搜索得到初始候选地址；然后，根据预设的行政区域地址等级以及每个待匹配地址分词对应的地址等级，从多个待匹配地址分词中确定出与预设的行政区域地址等级相匹配的行政区域地址分词；最后，以行政区域地址分词为索引，从初始候选地址中搜索得到候选地址。其中，预设的行政区域地址等级包括省、市和区。

举个例子，假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”，关键地址分词是“东山巷”和“5号”，根据表1示出的内容，可以确定初始候选地址包括标准地址1、标准地址2、标准地址3和标准地址4，而行政区域地址分词是“云岩区”，最终确定出的候选地址包括标准地址1、标准地址2和标准地址3。

相比于第一个示例示出的方法，采用第二个示例可以将明显不属于同一个行政区域的地址排除掉，从而可以降低地址匹配的运算量，提高地址匹配的匹配效率。

步骤105中，可以确定每个候选地址与待匹配地址之间的相似度，再将相似度最高的候选地址，确定为目标地址。

其中，候选地址与待匹配地址之间的相似度可以通过多种方式来确定，例如，可以分别计算各个候选地址与待匹配地址之间的编辑距离，然后将编辑距离最小的候选地址确定为目标地址。

举个例子，假设待匹配地址为“云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层”，关键地址分词是“东山巷”和“5号”，根据表1示出的内容，候选地址包括以下三种：

候选地址1：贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号3单元7层；

候选地址2：贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号1单元6层；

候选地址3：贵州省贵阳市云岩区中东社区服务中心宝山北路居委会东山巷5号4单元7层。

通过计算，可以得到候选地址1与待匹配地址之间的编辑距离为1；候选地址2与待匹配地址之间的编辑距离为2；候选地址3与待匹配地址之间的编辑距离为0。可见，候选地址3与待匹配地址之间的编辑距离最小，因此，可以将候选地址3确定为目标地址。

需要说明的是，上述计算候选地址与待匹配地址之间的编辑距离，进而确定相似度的方式仅为一种可能的实现方式，本领域技术人员可以根据经验和实际情况选择其它方式确定相似度，例如相似度比对，具体不做限定。

为了更加清楚地描述本申请实施例提供的地址匹配方法，下面结合图3，对地址匹配流程进行整体性地描述。

如图3所示，本申请实施例中，地址匹配方法包括三个部分：标准地址预处理、地址分段分级和地址匹配。

其中，标准地址预处理是对标准地址进行预处理处理，预处理的方式可以包括去重、筛选掉明显错误的地址等处理方式。经预处理后，可以得到处理前的标准地址和处理后的标准地址之间的对应关系。

地址分段分级是即将标准地址进行分词，并标注出每个分词对应的地址等级。

地址匹配包括两个部分，即模型建立和模型匹配。模型建立是分段分级后的标准地址可以作为样本地址，对初始的地址识别模型进行训练，从而得到预设的地址识别模型。模型匹配是采用预设的地址识别模型对待匹配地址进行识别，确定待匹配分词和待匹配分词对应的地址等级，然后根据预设的关键地址等级和预设的行政区域地址等级，从预设标准地址库中筛选出目标地址。其中，预设标准地址库可以是根据预处理后的标准地址确定的。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图4示例性示出了本申请实施例提供的一种地址匹配装置的结构示意图。如图4所示，该装置具有实现上述地址匹配方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：获取单元401、识别单元402和处理单元403。

获取单元401，用于获取待匹配地址；

识别单元402，用于采用预设的地址识别模型，从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级；所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的；

处理单元403，用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词；所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的；以及，从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址；所述预设标准地址库中存储有多个标准地址；以及，将与所述待匹配地址相似度最高的候选地址，确定为目标地址。

可选地，所述处理单元403具体用于：

可选地，当待匹配地址分词对应多个地址等级时，所述处理单元403具体用于：

可选地，所述预设的地址识别模型通过以下方式得到：

可选地，所述处理单元403具体用于：

可选地，待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。

可选地，所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。

图5为本发明实施例提供的电子设备硬件结构示意图。如图5所示，本发明实施例提供的电子设备包括：存储器501，用于存储程序指令；处理器502，用于调用并执行所述存储器中的程序指令，以实现上述实施例所述的址匹配方法。

本实施例中，处理器502和存储器501可通过总线或其他方式连接。处理器可以是通用处理器，例如中央处理器、数字信号处理器、专用集成电路，或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘。

本发明实施例还提供了一种存储介质，所述存储介质中存储有计算机程序，当址匹配装置的至少一个处理器执行所述计算机程序时，址匹配装置执行上述实施例所述的址匹配方法。

所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于服务构建装置和服务加载装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种地址匹配方法，其特征在于，所述方法包括：

获取待匹配地址；

2.根据权利要求1所述的方法，其特征在于，从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址，包括：

3.根据权利要求1所述的方法，其特征在于，当待匹配地址分词对应多个地址等级时，根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级，从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设的地址识别模型通过以下方式得到：

5.根据权利要求1所述的方法，其特征在于，将与所述待匹配地址相似度最高的候选地址，确定为目标地址，包括：

将编辑距离最小的候选地址确定为所述目标地址。

6.根据权利要求1至5中任一项所述的方法，其特征在于，待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。

7.根据权利要求6所述的方法，其特征在于，所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。

8.一种地址匹配装置，其特征在于，所述装置包括：

获取单元，用于获取待匹配地址；

9.根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：

10.根据权利要求8所述的装置，其特征在于，当待匹配地址分词对应多个地址等级时，所述处理单元具体用于：