CN114168705B

CN114168705B - 一种基于地址要素索引的中文地址匹配方法

Info

Publication number: CN114168705B
Application number: CN202111464331.7A
Authority: CN
Inventors: 赵文强; 王铁; 张雪英; 孙汉; 吴晨
Original assignee: Nanjing Canyon Information Technology Co ltd
Current assignee: Nanjing Canyon Information Technology Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-11-11
Anticipated expiration: 2041-12-03
Also published as: CN114168705A

Abstract

本发明公开了一种基于地址要素索引的中文地址匹配方法，该方法结合现有地址分类标准及中文地址数据的组织结构特征，构建中文地址要素组成结构，为确保地址数据的质量，在对低质量的地址数据进行清洗与筛选等预处理工作后，结合组成结构中的地址组合模式利用分词方法对标准地址数据进行要素解析，参考中文地址要素组成结构，基于解析结果构建标准地址要素索引文件，形成标准地址索引库，将待匹配地址进行初步要素解析，依据索引库中的各级地址要素索引和匹配策略进行地址要素检索与匹配，获得地址匹配结果的较优地址集合，利用设定的地址要素权重和地址相似度计算方法对结果集合进行筛选和排序，从而获得最优的匹配结果和对应的地址空间位置坐标。

Description

一种基于地址要素索引的中文地址匹配方法

技术领域

本发明属于地理信息技术领域，特别涉及一种基于地址要素索引的中文地址匹配方法。

背景技术

地址作为不可或缺的基础地理信息和社会公共信息，是各类社会信息关联的重要桥梁，在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。中文地址是由连续的字符串组成，能够帮助人们描述具体的地理位置。完整地址描述应该包括国家、省、市、区县、街道、乡村、道路、门牌号码、局部区域、楼址、楼栋号、楼层号和房间号等。一个有效的中文地址应该是唯一的，能够快速标识并定位某一地理实体位置。地址作为现代社会发展过程中所必需的地理空间数据资源和战略性基础信息资源，已经成为智慧城市中时空基础框架的重要组成部分，也是社会大数据组织、关联与共享应用的桥梁。

地址匹配是将自然语言描述的地址数据，在地址模型或编码规范的基础上进行智能化的地址解析，从而建立地址描述信息与空间坐标转换的过程。通过地址匹配可以建立标准地址与非标准地址之间的有机联系，满足空间信息与非空间信息的有效融合，实现不同地址数据类型之间的共享与集成。地址模型是地址匹配的基础，地址解析是地址匹配过程中对地址结构化的关键步骤。随着人们空间认知和信息化技术的不断提升，先进的人工智能、大数据和自然语言处理等技术快速发展，为中文地址的解析和智能匹配提供了强有力的技术支撑。

将带有中文地址要素模型的地址层级分类体系以及索引技术相融合，形成一种基于地址要素索引的中文地址匹配方法，可解决地址匹配中建立标准地址与非标准地址有机联系的问题，满足空间信息有效表达的需求，同时有效应对中文地址存在分隔符缺失、描述名称省略或者冗余以及形式复杂多样等问题导致的匹配效率低下、准确度亟待提高的窘境。

发明内容

为了解决中文地址数据存在的数据不规范、存在冗余和复杂多样的问题，以及传统中文地址匹配中字符匹配效率和准确率不能完美适用大量非标准地址数据的情况，本发明目的在于提供一种基于地址要素索引的中文地址匹配方法，该方法在地址解析的基础上，首先对解析后的地址要素，按照其要素的类型进行归类，并对每一类型的地址要素集分别建立相应的倒排索引。同时对符合要求的多个结果进行归并，从而获得候选地址集合。基于地址要素的索引可以在最大程度上避免不同类型的地址要素结果的混淆。这样的中文地址要素索引可解决不同类型地址要素对匹配结果混淆的问题，提升了中文地址的数据组织效率和匹配性能。

本发明解决其技术问题所采取的技术方案是：一种基于地址要素索引的中文地址匹配方法，该方法包括以下步骤：

步骤1：基于地址要素分类体系及地址数据特点构建中文地址要素组成结构，分析中文地址要素组合模式，在地址要素分类与地址空间关系描述的基础上，对中文地址采用分段组合的方式进行描述。

步骤2：在对地址数据进行清洗、筛选和行政区划补全等预处理工作后，基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析；

步骤3：根据中文地址要素组成结构，构建包含其各级地址要素的地址要素数据库，将用于构建索引的解析结果进行结构化后存入地址要素数据库；

步骤4：根据地址要素数据库中结构化的地址数据，利用Elasticsearch引擎并结合地址要素库的分级数据，构建地址要素索引文件后将索引存入索引数据库中；

步骤5：将待匹配地址数据经过地址解析后，引入地址要素索引文件，通过构建的地址索引文件将待匹配地址进行检索匹配，匹配中将参考索引数据的地址要素层级关系，将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合；

步骤6：结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值，根据权重值的高低进行排序，得到匹配的优选结果。

进一步地，本发明步骤1中所述中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示。

进一步地，本发明步骤1中所述中文地址要素组合模式，通过对详细地址中的要素规律统计，可以得出以下四种组合模式。分别为：道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式。

进一步地，本发明步骤1中所述的中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分。

进一步地，本发明中文地址要素组成结构的行政区划大类，其层级结构可通过扩展巴斯克范式表示为：行政区划名::＝<一级行政区划><二级行政区划><三级行政区划>[四级行政区划][五级行政区划]。

进一步地，本发明中文地址分段描述中的详细地址部分存在四种地址要素组合模式：道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式。

进一步地，本发明步骤5中所述的引入地址要素索引文件通过Elasticsearch引擎构建和存储的地址索引文件对待匹配地址进行检索，并基于该引擎进行地址要素等级的检索以便地址要素的匹配。

进一步地，本发明地址匹配时所参考的中文地址匹配策略结合精准匹配、模糊匹配和回溯匹配的策略。

进一步地，本发明地址精确匹配是指地址要素与地址数据库中目标地址要素完全相同的检索方式；地址模糊匹配采用获得包含相同地址要素最多的地址集合的方式进行匹配；地址回溯匹配采用对匹配失败的地址进行二次匹配，返回最接近的地址结果的方式进行匹配。

进一步地，本发明步骤6中所述的地址要素权重将中文地址要素组成结构的行政区划、道路、局部区域、楼址、楼室号、附属信息六个大类地址列为一级类型权重，大类下的地址二级分类列为二级类型权重。

进一步地，本发明当二级行政区划匹配的相似度超过0.95，则一级的行政区划部分的权重设置为0。多个局部区域名称嵌套时，权重从后向前进行递减，当局部区域要素的个数超过3个及以上时，设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化，避免计算单位的不统一。

进一步地，本发明步骤6中所述的地址相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。

有益效果：

1、本发明基于现有地址要素分类体系和大规模地址数据的数据结构作为分析标准，构建了有利于完善中文地址要素和表达中文地址的分类体系。分析了地址中存在的空间关系及其表达方式后，生成了中文地址要素的组合模式，能够为地址模型的建立提供参考与借鉴，为地址解析和地址匹配的过程提供数据结构的基础，为实验提供理论支撑。

2、本发明构建的中文地址要素模型，在地址解析和地址匹配的过程中可以确保地址数据的标准化流程，提高地址数据标准化程度可以大幅度提高解析与匹配的效率和准确率，避免由于数据存在冗余和地址数据本身的复杂性而造成的数据处理层面的问题。同时对于地址要素索引的构建也有精准度上的提升。

3、本发明在地址解析的基础上，首先对解析后的地址要素，按照其要素的类型进行归类，并对每一类型的地址要素集分别建立相应的倒排索引。同时对符合要求的多个结果进行归并，从而获得候选地址集合。基于地址要素的索引可以在最大程度上避免不同类型的地址要素结果的混淆。这样的中文地址要素索引可解决不同类型地址要素对匹配结果混淆的问题，提升了中文地址的数据组织效率和匹配性能。

附图说明

为了清楚地说明本发明实施例的技术方案，下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例所述的一种基于地址要素索引的中文地址匹配方法的流程图

图2是本发明公开的一种中文地址要素组成结构

图3是本发明实施例的地址数据预处理流程图

图4是本发明实施例的地址要素索引建立流程图

具体实施方式

下面结合附图对本发明的具体实施过程作详细说明。基于地址要素索引的中文地址匹配方法包含以下步骤：

(1)根据中文地址的特征分析和中文地址数据特点，进行中文地址要素组成结构的构建以及组合模式分析。考虑到中文地址由多个不同空间范围的地址要素所组成。地址要素是指在特定区域内可以确定一个具体地理区域范围的地址字段，地址要素每一个都是不可以再继续分割的字段，是具有最小地址语义的单元。地址要素继续分割的话会引起歧义，例如“长江路”再继续分割为“长”、“江”、“路”，便失去了其原有语义。所以，构建合理的中文地址要素组成结构需要充分考虑地址规划的现状和中文地址实际特征，并兼顾公众对地址的认知规律。

如图2所示，本发明在参考国家地址标准规范和行业地址分类标准规范的基础上，兼顾地址的通用性、统一性和扩展性，把中文地址元素分为六大类，其中包括行政区划、道路、局部区域、门牌号、楼址、单元户室号，每一类别又具有各自详细的小类。

(2)地址数据预处理。地址数据预处理目的是对低质量的地址数据进行清洗与筛选，从而保证实验数据的可靠性。由于实验数据存在要素冗余、数据不完整、地址中含有非地址要素等问题，主要包括删除残缺数据、删除非地址数据、删除非地址要素、删除重复数据、删除特殊符号、删除空白字符以及补充部分行政区划等。具体流程如图3所示。

预处理主要步骤如下：1)建立行政区划数据库，包括市、区、街道和社区等，具体数据内容将参考《中华人民共和国行政区划代码(GB/T 2260-2007)》；2)删除非地址数据、删除非地址元素、删除特殊符号空白字符，例如“@”、“。”、“、”和“！”等；3)规范部分地址数据；4)前三级行政区划要素补齐；5)地址数据去重；6)地址数据统一转化为简体并进行存储。

(3)对地址数据进行解析，并利用解析后结构化的地址数据建立地址索引文件，同时保存地址索引文件。地址解析的过程将参考先前构建的地址要素组合模式，待数据预处理完成后使用分词解析方法，结合各类型要素进行地址解析。随后将根据地址数据的解析结果建立地址索引文件，将索引进行存储。地址要素的索引构建流程如图4所示，要素索引建立步骤如下：

1)地址要素词典文件存储。将地址数据库中的原始地址数据取出，经过地址解析后生不同语义的地址要素数据T₁、T₂、...T_n，其中T_n由同语义的多个地址要素组成。每一个语义类别的所有地址要素按照统一的方式依次排列，生成地址要素序列S_t＝T₁、T₂、...T_n，将地址要素序列存储在地址要素词典中。

2)地址要素索引文件构建。地址要素索引是存储地址要素索引记录的物理文件，用于存储地址要素索引记录条目和地址要素词典文件中地址要素之间的相互对应关系。地址要素词典文件中存储各个类别中不重复的地址要素，形成一条要素索引记录。每条地址要素索引记录中包含三个部分的数据信息：地址要素个数，地址要素的字符编码和地址要素词典文件存储位置。

3)候选地址集合查询。首先对待查询地址进行解析，将地址按照解析后不同语义的地址要素进行结构化，获得带有语义的多个地址要素W₁、W₂、...，W_n。其次，利用解析后不同语义的地址要素分别作为检索关键字，在地址要素索引文件中搜索其要素对应的索引记录信息。最后，通过对索引记录中的地址信息进行反向解析查询，利用地址要素索引中记录的位置信息查询词典文件中对应的地址数据，并将全部搜索结果返回R＝{R₁，R₂，...R_n)。

4)地址相似度排序。利用中文地址相似度计算模型进行排序(后文详细介绍)，从而返回正确的地址匹配结果。

(4)加载地址索引文件，通过地址索引文件对待匹配地址进行检索，获得地址匹配结果的待选集合。同时利用地址相似度计算方法对结果集合进行筛选和排序，从而获得最优的匹配结果和对应的地址空间位置坐标。地址要素相似度计算模型包括两个部分。第一部分是基于地址要素加权的相似度计算，第二部分是基于地址语义的相似度计算。地址要素的加权相似度计算可以突出重要的地址要素，有效提高重点要素在地址匹配时的权重。地址语义相似度的计算可以解决在长地址匹配过程中，地址要素的匹配只能参考地址字符串中的局部信息，无法进行全局依赖及关联性的参考。

1)地址要素权重：中文地址由多个层级的地址要素组成，地址要素的层级越高，其表示的范围越大，定位精度越低。层级较低的地址要素部分，往往指向的空间范围较小，定位精度较高。实验依据第二章统计的地址要素使用频率和地址组合模式频率，对不同类型的地址要素设置相应的匹配权重，使得匹配结果中权重较高的地址要素可以获得更高的匹配优先级。中文地址要素权重详情如表1所示。

表1地址要素匹配权重

将权重矩阵用W_i和W_ij表示，W_i表示地址要素一级权重，W_ij表示地址在一级类型下的二级权重。对前二级行政区划设置权重的阈值，当二级行政区划匹配的相似度超过0.95，则一级的行政区划部分的权重设置为0。例如对行政区划“江苏省南京市”进行匹配，当“南京市”匹配成功时候，“江苏省”则不需要再进行匹配。多个局部区域名称嵌套时，权重从后向前进行递减，当局部区域要素的个数超过3个及以上时，设置权重为0.3且不再递减。对于每一个类别要素相似度计算都需要进行归一化，避免计算单位的不统一。

2)地址相似度计算：地址语义相似度计算模型是基于加权的字符编辑距离算法与地址语义余弦相似度计算融合的综合模型。加权的编辑距离算法能够更加准确的计算不同类型地址要素间的相似程度，而地址语义余弦相似度计算能够弥补地址要素相似度计算的缺陷，获得地址整体语义的相似度数值。

地址相似度计算详细步骤如下：

(1)地址Address₁、Address₂进行相似度计算。首先对地址进行解析，或者直接从数据库中获取地址解析后的结果，得到不同级别的地址要素。

Address₁＝{P₁，P₂，P₃，...P_n}

Address₂＝{P₁，P₂，P₃，...P_n}

式中，P_n表示地址经过地址解析后的不同地址要素部分。

(2)计算Address₁、Address₂两个地址中相同层级地址要素的加权相似度数值。

式中，w_i表示地址一级矩阵，W_ij表示地址要素二级矩阵，P_ij表示地址要素之间计算的字符相似度。

(3)计算Address₁、Address₂两个地址语义信息的余弦相似度。

式中v_i，w_i为Address₁、Address₂通过BERT模型获得的地址语义矩阵。

(4)对地址语义信息的余弦相似度与地址要素字符距离加权相似度进行相加，并归一化，得出最终的地址相似度值。

式中，sim1，sim2分别表示地址要素加权相似度值和地址语义余弦相似度值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于地址要素索引的中文地址匹配方法，其特征在于，包括以下步骤：

步骤1：基于地址要素分类体系及地址数据特点构建中文地址要素组成结构，分析中文地址要素组合模式，在地址要素分类与地址空间关系描述的基础上，对中文地址采用分段组合的方式进行描述，中文地址要素组成结构共分为行政区划、道路、局部区域、楼址、楼室号、附属信息6个大类、18个小类进行表示，中文地址要素组合模式，通过对详细地址中的要素规律统计，可以得出以下四种组合模式，分别为：道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式和道路交汇处地址模式，中文地址分段描述分为行政区划部分、详细地址部分、楼室号地址和附属信息四个组成部分，中文地址要素组成结构的行政区划大类：一级行政区划、二级行政区划、三级行政区划、四级行政区划和五级行政区划，中文地址分段描述中的详细地址部分存在四种地址要素组合模式：道路和门牌号为主体的组合模式、局部区域为主体的组合模式、道路和局部区域为主体的组合模式、道路交汇处地址模式；

步骤2：在对地址数据进行清洗、筛选和行政区划补全预处理工作后，基于所构建的中文地址要素组成结构对地址数据以分词方法进行解析；

步骤5：将待匹配地址数据经过地址解析后，引入地址要素索引文件，通过构建的地址索引文件将待匹配地址进行检索匹配，匹配中将参考索引数据的地址要素层级关系，将待匹配地址和各级行政区划索引进行匹配并获得地址匹配结果的待选集合，引入地址要素索引文件通过Elasticsearch引擎构建和存储的地址索引文件对待匹配地址进行检索，并基于该引擎进行地址要素等级的检索以便地址要素的匹配，匹配地址时所参考的中文地址匹配策略结合精准匹配、模糊匹配和回溯匹配的策略，地址的精确匹配是指地址要素与地址数据库中目标地址要素完全相同的检索方式；地址模糊匹配采用获得包含相同地址要素最多的地址集合的方式进行匹配；地址回溯匹配采用对匹配失败的地址进行二次匹配，返回最接近的地址结果的方式进行匹配；

步骤6：结合设定的地址要素权重和地址相似度计算模型计算待匹配地址的匹配权重值，根据权重值的高低进行排序，得到匹配的优选结果，地址要素权重将中文地址要素组成结构的行政区划、道路、局部区域、楼址、楼室号、附属信息六个大类地址列为一级类型权重，大类下的地址二级分类列为二级类型权重，当二级行政区划匹配的相似度超过0.95，则一级的行政区划部分的权重设置为0，多个局部区域名称嵌套时，权重从后向前进行递减，当局部区域要素的个数超过3个及以上时，设置权重为0.3且不再递减，对于每一个类别要素相似度计算都需要进行归一化，避免计算单位的不统一，地址相似度计算步骤包括：

(1)地址Address₁、Address₂进行相似度计算，首先对地址进行解析，或者直接从数据库中获取地址解析后的结果，得到不同级别的地址要素；

Address₁＝{P₁，P₂，P₃，...P_n}

Address₂＝{P₁，P₂，P₃，...P_n}

式中，P_n表示地址经过地址解析后的不同地址要素部分；

(2)计算Address₁、Address₂两个地址中相同层级地址要素的加权相似度数值；

式中，w_i表示地址一级矩阵，W_ij表示地址要素二级矩阵，P_ij表示地址要素之间计算的字符相似度；

(3)计算Address₁、Address₂两个地址语义信息的余弦相似度；

式中v_i，w_i为Address₁、Address₂通过BERT模型获得的地址语义矩阵；

(4)对地址语义信息的余弦相似度与地址要素加权相似度进行相加，并归一化，得出最终的地址相似度值；

式中，sim1，sim2分别表示地址要素加权相似度值和地址语义余弦相似度值；

地址要素权重：中文地址由多个层级的地址要素组成，地址要素的层级越高，其表示的范围越大，定位精度越低，层级较低的地址要素部分，往往指向的空间范围较小，定位精度较高，实验依据第二章统计的地址要素使用频率和地址组合模式频率，对不同类型的地址要素设置相应的匹配权重，使得匹配结果中权重较高的地址要素可以获得更高的匹配优先级。