CN109165273B

CN109165273B - 一种面向大数据环境的通用中文地址匹配方法

Info

Publication number: CN109165273B
Application number: CN201810970921.9A
Authority: CN
Inventors: 水新莹; 张宇光; 黄亚坤
Original assignee: Anhui Xunfei Intelligent Technology Co ltd
Current assignee: Anhui Xunfei Intelligent Technology Co ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-10-26
Anticipated expiration: 2038-08-24
Also published as: CN109165273A

Abstract

本发明公开了一种面向大数据环境的通用中文地址匹配方法，包括S1、数据预处理；S2、中文地址要素解析，将中文、字母和数字信息分解提炼出相应的要素信息；S3、定义多种距离计算公式，实现基于key‑value计算各地址信息之间匹配关系的多种距离；S4、基于对要素信息完成原始地址字符串的key‑value形式转换，建立基于key‑value的多种距离匹配模型并由此计算综合匹配度，据此对目标地址进行排序；S5、综合匹配度最大值是否大于给定阈值参数，并由此给出匹配结果。本发明将单条地址的匹配效率从1min左右降低到约2.2s；匹配结果在匹配度与精确度指标上更均衡，对推动智慧城市的构建具有较高的应用价值。

Description

一种面向大数据环境的通用中文地址匹配方法

技术领域

本发明涉及大数据和智慧城市领域，具体涉及一种面向大数据环境的通用中文地址匹配方法。

背景技术

社区网格化的提出是建立智慧社区的重要基石，地址匹配技术在建立统一、便捷的社区一体化服务过程中起着至关重要的作用。地址匹配技术是将一条文字描述的地址信息与目标数据库中的地理坐标或地址信息进行映射的过程，对用户输入的地址信息，按照一定的切词、匹配算法，在地理编码数据库中进行查找匹配，根据匹配结果标记相应的空间坐标。

由于中文地址富含了大量语义信息，在处理过程中更为复杂。从中文地址要素分词解析来看，基于机械分词、统计分词和自然语言分词的地址匹配算法是当前主要的中文地址匹配方案。机械分词主要基于数据库中的字典对中文地址进行分词匹配。在匹配顺序上分为正向和逆向匹配，基于分词顺序依次找出匹配度最大的词；而逆向匹配是中文地址处理中的较为常用的匹配方法；统计分词主要研究上下文信息，如两个中文字符同时出现频率较高，则可以推断其构成一个词的概率高；而基于自然语言分词的地址匹配算法，由于中文地址包含了丰富的语义信息，同一地址可能存在多种表述形式，因此，结合语义信息进行地址要素解析能够有效提高匹配精确。

上述匹配算法在大数据规模中文地址匹配场景下，算法的执行效率和地址的匹配精确度普遍较差，大多数算法对匹配精确度更为关注，忽略了当前地址大数据环境下，地址信息中富含的海量、多样以及异构等特性,匹配效率较低，单条地址信息匹配需要1min左右。

发明内容

本发明的目的在于提供一种面向大数据环境的通用中文地址匹配方法，解决现有技术对中文地址处理效率、匹配率以及匹配度上的性能普遍较差的缺陷。

所述的面向大数据环境的通用中文地址匹配方法，包括以下步骤：

S1、数据预处理；

S2、中文地址要素解析，将中文、字母和数字信息分解提炼出相应的要素信息；

S3、定义多种距离计算公式，实现基于key-value计算各地址信息之间匹配关系的多种距离；

S4、基于对要素信息完成原始地址字符串的key-value形式转换，建立基于key-value的多种距离匹配模型，基于key值进行过滤搜索，然后循环计算待匹配地址与目标地址之间的多种距离，并由此计算综合匹配度，依据综合匹配度对目标地址进行排序；

S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数，并由此给出匹配结果。

优选的，所述步骤S4中，对原始地址字符串中分类出的字母和数字信息按照倒序组合，构成具有标识特性的key，同时将解析后的中文地址要素信息组合形成value值，完成原始地址字符串的key-value形式转换。

优选的，所述步骤S1具体包括下列步骤：

步骤一、脏数据处理，基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗，修正乱码或重复字符；

步骤二、数字或字母信息预处理，地址信息中门牌信息中的中文数字信息转换为阿拉伯数字，字母信息统一转换为大写；

步骤三、正则提取出中文、字母和数字信息，添加分隔符完成提取分离。

优选的，所述步骤S2具体包括下列步骤：

步骤一、行政要素解析，行政要素包括国家、城市和行政区县；

步骤二、基本约束信息解析，基本约束信息包括街道、集镇、工业区和自然村；

步骤三、位置信息解析，位置信息包括建筑物信息和门牌号。

优选的，所述步骤S3中距离包括：

覆盖距离，即有限元素组成的有序集合之间，相同元素与长度较短集合的集合长度比值；

匹配距离，即有限元素组成的有序集合，从第一个元素进行对应匹配，直至匹配到元素不相等时的距离长度与较短集合的长度比值。

优选的，所述步骤S3中距离计算公式如下：

覆盖距离计算公式，若采用A，B分别表示有限元素集合，|A|，|B|分别表示A和B的集合长度，A∩B表示进行集合交集操作，则覆盖距离可采用下式表示：

匹配距离计算公式，对于上述集合A，B，A∧B表示从一个元素起进行连续匹配操作，则该距离可表示为：

优选的，所述步骤S4的具体步骤如下：

步骤一、将分离出的字母和数字信息进行倒排，即按照门牌号-单元号-楼栋号-小区号进行倒排，然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值，Value值即为解析的中文地址要素；

步骤二、根据上述设计的key-value数据库，对于目标地址，在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选；

步骤三、根据定义的距离计算公式循环计算待匹配地址与筛选出的目标地址之间的多种距离，若给定的覆盖距离和匹配距离的权重为α和β，则最终计算的综合匹配度如下所示：

inte_md＝α*cd+β*md

步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序。

优选的，获取综合匹配度排序最高的目标地址作为最终的待选匹配地址，同时给定参数p，若综合匹配度小于p则说明该地址匹配度较低，结果为目标地址库无匹配项，否则接受排序最高的目标地址作为最终的待选匹配地址，完成地址匹配过程。

本发明的优点在于：将中文字符串、数字与字母分别进行地址要素解析，将地址信息重新组织构成适应于大数据环境下的key-value形式的地址记录，将转换后的地址记录存储于Hbase数据库中，设计了多种距离信息构成的地址匹配算法，该算法效率比传统算法将单条地址匹配效率从1min左右降低到约2.2s；匹配结果在匹配度与精确度指标上更均衡，对推动智慧城市的构建具有较高的应用价值。

附图说明

图1为本发明一种面向大数据环境的通用中文地址匹配方法的整体流程图；

图2为本发明实施例中文地址结构解析的示意图；

图3为本发明中基于key-value的多种距离匹配模型进行匹配计算的流程图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

通常，地址要素解析难以同时满足语义解析、解析效率、解析准确性等要求。考虑到中文地址复杂的语义特性，录入方式的多样化使得同一地址的表现形式复杂多样。下文结合中文地址的语义特性进行解析，并提出了中文字符、数字及字母分离的解析方法，降低了智能推理匹配的计算规模。首先基于已有的成熟的语义分词框架进行地址要素解析，解析对应结果入字典库。由于数字信息在地址中所占的信息量比重较大，通过初步模糊匹配得出预处理结果集，从而降低了数据处理规模。

如图1-3所示，本发明提供了一种面向大数据环境的通用中文地址匹配方法，包括以下步骤：

(1)数据预处理。数据预处理过程主要包括三方面：一、完成基本的脏数据处理，如解决修正地址字符串中的乱码或重复字符；二、将地址信息中门牌信息中的中文数字信息统一转换为阿拉伯数字，字母信息统一转换为大写，为匹配算法提供规范文本；三、通过正则表达式等方式完成对地址信息的中文、数字和字母的提取分离。

(2)中文地址要素解析，标准地址一般由行政区划要素、基本约束信息和位置信息组成，行政要素的组成部分主要是国家、城市和行政区县，而基本约束信息是从街道、集镇、工业区或自然村进行表述，最后，位置信息主要是包含数字或字母信息的建筑物编号、门牌号或标志物。该步骤进行解析主要是行政要素和基本约束信息，位置信息的解析则通过前一步中数字与字母信息分离完成提取。

(3)定义多种与中文地址匹配相关的距离及其计算公式，在解决中文地址要素匹配时，需要从已分离出的多种要素之间设计不同的距离计算方式，给出了适用于中文字符串和数字、字母信息的覆盖距离和匹配距离定义。其中相似度距离用于分析两段文字或个体间的差异大小，评判是否相同或同属一类。相似度计算方式可采用如欧式距离度量和皮尔逊相似度，适用于对数据进行分类，若采用A，B分别表示有限元素集合，主要分为：覆盖距离，即有限元素组成的有序集合之间，相同元素与长度较短集合的集合长度比值；匹配距离是有限元素组成的有序集合，从第一个元素进行对应匹配，直至匹配到元素不相等时的距离长度与较短集合的长度比值。

(4)建立基于key-value的多种距离匹配模型。对原始地址字符串中分类出的字母和数字信息按照倒序组合，构成具有标识特性的key，同时将解析后的中文地址要素信息组合形成value值，完成原始地址字符串的key-value形式转换。并由此建立基于key-value的数据库，对于预处理后的地址匹配问题，在目标数据库搜索阶段，基于key值进行过滤搜索，有效缩小了目标地址集合，然后循环计算待匹配地址与目标地址之间的多种距离，进一步计算综合匹配度并排序。

(5)根据排序结果获取综合匹配度最高的目标地址，判断其综合匹配度是否大于给定阈值参数，并由此给出匹配结果。

为了更清晰地描述上述发明的实施步骤，下面结合实例进一步说明，若给出了一个示例虚拟地址“安徽省芜湖市弋％江区柏庄春暖花开a区区88幢十一单元703室”为待匹配地址。则匹配方法的具体步骤如下：

(1)数据预处理，主要包含以下三个步骤：

步骤一、脏数据处理，基于Kettle或其他ETL处理工具对地址库中的地址字符串进行数据清洗，如示例地址清洗后转换为“安徽省芜湖市弋江区柏庄春暖花开a区88幢十一单元703室”；

步骤二、数字或字母信息预处理，将地址信息中门牌信息中的中文数字信息转换为阿拉伯数字，字母信息统一转换为大写，示例地址处理后为“安徽省芜湖市弋江区柏庄春暖花开A区88幢11单元703室”；

步骤三、正则提取出中文、字母和数字信息，添加分隔符完成提取分离。步骤二处理的地址信息提取后，中文地址串为“安徽省芜湖市弋江区柏庄春暖花开”，数字和字母串为“A-88-11-703”。

(2)中文地址要素解析。主要包括以下三个步骤：

步骤一、行政要素解析，主要包括国家、城市和行政区县，如示例地址中省市可解析为安徽省芜湖市，县区解析为弋江区；

步骤二、基本约束信息解析，主要包括街道、集镇、工业区或自然村，示例地址中街道委员会解析为空，用NULL表示，小区、村镇解析为柏庄春暖花开；

步骤三、位置信息解析，主要是建筑物、门牌号，示例地址中解析为88幢11单元703室；附图2中给出了该中文地址要素的结构解析示意图。

(3)定义多种与中文地址匹配相关的距离及其计算公式，根据定义的多种相关距离，从已分离出的多种要素之间设计不同的距离计算公式，本实施例中时计算中文字符串和数字、字母信息的覆盖距离和匹配距离。

步骤一、计算覆盖距离，若采用A，B分别表示有限元素集合，|A|、|B|分别表示A和B的集合长度，A∩B表示进行集合交集操作，则覆盖距离可采用下式表示：

步骤二、计算匹配距离，对于上述集合A、B，A∧B表示从一个元素起进行连续匹配操作，则该距离可表示为：

(4)建立基于key-value的多种距离匹配模型。主要包括以下步骤：

步骤一、将分离出的字母和数字信息进行倒排，即按照门牌号-单元号-楼栋号-小区号进行倒排，例如示例地址处理后为“703-11-88-A”，然后将该字符串拼上处理的时间戳构成Hbase数据库中的唯一索引key值，即“703-11-88-A-timestamp”，其中timestamp为时间戳，Value值即为解析的中文地址要素；

步骤二、根据上述步骤设计的key-value数据库，对于示例的目标地址，在目标地址中基于门牌号-单元号-楼栋号-小区号进行快速筛选；

步骤三、根据之前定义的距离及其计算公式循环计算示例地址与筛选后各目标地址之间的多种距离，即覆盖距离和匹配距离。若给定覆盖距离和匹配距离的权重分别为α和β，则最终的综合匹配度计算公式如下所示：

inte_md＝α*cd+β*md；

步骤四、根据综合匹配度的计算结果inte_md对筛选出的目标地址进行排序；

(5)获取排序最高的目标地址作为最终的待选匹配地址，同时给定参数p，与待选匹配地址的综合匹配度inte_md比较，若inte_md＜p则说明待选匹配地址匹配度较低，即目标地址库中无相应的匹配项，输出无匹配项的结果；否则接受综合匹配度inte_md最高的待选匹配地址作为最终的匹配结果输出，至此，完成示例地址的匹配过程。

上述算法效率相比于传统算法，将单条地址的匹配效率从1min左右降低到约2.2s；匹配结果在匹配度与精确度指标上更均衡，对推动智慧城市的构建具有较高的应用价值。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.一种面向大数据环境的通用中文地址匹配方法，其特征在于：包括如下步骤：

S1、数据预处理；

S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数，并由此给出匹配结果；

所述步骤S4中，对原始地址字符串中分类出的字母和数字信息按照倒序组合，构成具有标识特性的key，同时将解析后的中文地址要素信息组合形成value值，完成原始地址字符串的key-value形式转换。

2.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S1具体包括下列步骤：

3.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S2具体包括下列步骤：

4.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S3中距离包括：

5.根据权利要求4所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S3中距离计算公式如下：

6.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：所述步骤S4的具体步骤如下：

inte_md＝α*cd+β*md；

7.根据权利要求1所述的一种面向大数据环境的通用中文地址匹配方法，其特征在于：获取综合匹配度排序最高的目标地址作为最终的待选匹配地址，同时给定参数p，若综合匹配度小于p则说明该地址匹配度较低，结果为目标地址库无匹配项，否则接受排序最高的目标地址作为最终的待选匹配地址，完成地址匹配过程。