CN109344263B

CN109344263B - 一种地址匹配方法

Info

Publication number: CN109344263B
Application number: CN201810860041.6A
Authority: CN
Inventors: 龙华; 吴睿; 熊新; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2022-07-19
Anticipated expiration: 2038-08-01
Also published as: CN109344263A

Abstract

本发明涉及一种地址匹配方法，属于地理信息数据处理技术领域。首先建立分词词典、地址分级词典与常见地址缩略词替代词典；然后对输入的待匹配的地址字符串进行预处理；其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理；最后将得到的所有分词结果匹配数据库后再加权，得到若干种匹配结果，最后通过相似度计算，得到相似度最高的地址字符串。本发明通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合，再结合自然语言处理技术，主要解决了单一的地址匹配方法存在歧义切分，对新词识别率低，从而使得地址匹配结果准确率低的现象，以提高地址匹配的准确性。

Description

一种地址匹配方法

技术领域

本发明涉及一种地址匹配方法，属于地理信息数据处理技术领域。

背景技术

随着地理信息技术的快速发展和广泛应用，地址匹配技术能把含有位置的文字信息与空间信息关联起来，从而提供数据分析、定位、制图和可视化等服务，地名地址的智能化、高效率和高准确率匹配在数字城市建设和人们生活中发挥着不可或缺的作用，社会效益与经济效益极其显著。

一般地，基于词典的地址匹配方法虽然能够从一定程度上提高效率与准确率，但是匹配过程过分依赖于词典，在出现未登录词和干扰词的情况下地址匹配的准确率较低；同样地，基于规则的地址匹配方法虽然解决了未登录词识别和歧义切分等问题，但是通用规则的制定存在一定困难。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种地址匹配方法，将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合，再结合自然语言处理技术，对传统的地址匹配方法进行改进，解决了单一的地址匹配方法存在歧义切分，对新词识别率低，从而使得地址匹配结果准确率低的现象，以提高地址匹配的准确性。

本发明的技术方案是：一种地址匹配方法，该方法将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合，再结合自然语言处理技术，对传统的地址匹配方法进行改进，具体包括以下5个步骤：

①建立分词词典、地址分级词典与常见地址缩略词替代词典。

②输入待匹配的地址字符串。

③对输入的待匹配的地址字符串进行预处理。

④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。

⑤将得到的所有分词结果匹配数据库后再加权，得到若干种匹配结果，最后通过相似度计算，得到相似度最高的地址字符串。

进一步地，步骤①所述的分词词典有高度的通用性与高覆盖率，以提高分词的准确率；所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划，以在匹配数据库时能有更高的匹配率；所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址，以提高在匹配数据库时的准确率。

进一步地，步骤②所述的待匹配的地址字符串可以为任意字符串。

进一步地，步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。

进一步地，所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法，以提高分词的准确率；所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定；所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。

进一步地，步骤④所述的基于规则的地址匹配方法具体实现为：当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时，若分词结果中含有主特征字，如省、市、区、镇、路等，则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除；否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注，然后使用viterbi算法求出概率最大的分词结果。

进一步地，步骤③和步骤④所述的预处理和所述的二次处理后得到的分词结果，即地址块集合S为：

S＝{S₁,S₂,...,S_N}

其中，N为分词后得到的地址块总个数。

进一步地，步骤⑤所述的匹配数据库的具体流程是：首先将所述地址块集合S中第一个地址元素S₁匹配数据库，若数据库中存在该地址元素，则返回该地址元素，若不存在，则放宽匹配要求，即采用模糊匹配的方法匹配数据库，直到匹配成功，且输出所有可能的结果；然后再匹配第二个地址元素S₂，以此类推，直到最后一个地址元素S_N匹配完成。

进一步地，步骤⑤所述的加权规则为：地址块集合S中越靠后的地址元素权值越大，且在所述的匹配数据库的过程中，匹配要求越高的地址元素权值越大。

进一步地，步骤⑤所述的相似度计算采用余弦相似性算法，每个地址要素的相似度sim(A_i,B_i)计算公式为：

其中，

和

为需要进行比较的第i对地址要素的向量形式，

和

为向量

和

的模。

进一步地，步骤⑤所述的得到相似度最高的地址字符串的计算公式为：

其中，P_i为第i个地址要素的权重。

本发明的有益效果是：通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合，再结合自然语言处理技术，主要解决了单一的地址匹配方法存在歧义切分，对新词识别率低，从而使得地址匹配结果准确率低的现象，以提高地址匹配的准确性。

附图说明

图1是本发明步骤流程图；

图2是本发明步骤③流程图；

图3是本发明步骤④流程图；

图4是本发明步骤⑤流程图。

具体实施方式

下面结合具体实施方式，对本发明作进一步说明。

实施例1：如图1-4所示，一种地址匹配方法，首先建立分词词典、地址分级词典与常见地址缩略词替代词典；然后对输入的待匹配的地址字符串进行预处理；其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理；最后将得到的所有分词结果匹配数据库后再加权，得到若干种匹配结果，最后通过相似度计算，得到相似度最高的地址字符串。

具体步骤为：

②输入待匹配的地址字符串。

③对输入的待匹配的地址字符串进行预处理。

S＝{S₁,S₂,...,S_N}

其中，N为分词后得到的地址块总个数。

其中，

和

为需要进行比较的第i对地址要素的向量形式，

和

为向量

和

的模。

其中，P_i为第i个地址要素的权重。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种地址匹配方法，其特征在于：

①建立分词词典、地址分级词典与常见地址缩略词替代词典；

②输入待匹配的地址字符串；

③对输入的待匹配的地址字符串进行预处理；

所述预处理包含地址分词、去除标点、过滤掉无用信息和地址缩略词替代；

④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理；

所述的基于规则的地址匹配方法具体实现为：当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时，若分词结果中含有主特征字，则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除；否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注，然后使用viterbi算法求出概率最大的分词结果；

⑤将得到的所有分词结果匹配数据库后再加权，得到若干种匹配结果，最后通过相似度计算，得到相似度最高的地址字符串；

所述相似度计算采用余弦相似性算法，每个地址要素的相似度sim(A_i,B_i)计算公式为：

其中，

和

为需要进行比较的第i对地址要素的向量形式，

和

为向量

和

的模；

所述步骤⑤中得到相似度最高的地址字符串的计算公式为：

其中，P_i为第i个地址要素的权重。

2.根据权利要求1所述的地址匹配方法，其特征在于：所述步骤②中待匹配的地址字符串可以为任意字符串。

3.根据权利要求1所述的地址匹配方法，其特征在于：所述步骤③中预处理和所述步骤④中二次处理后得到的分词结果，即地址块集合S为：

S＝{S₁,S₂,...,S_N}

其中，N为分词后得到的地址块总个数。

4.根据权利要求3所述的地址匹配方法，其特征在于：所述步骤⑤中匹配数据库的具体流程是：首先将所述地址块集合S中第一个地址元素S₁匹配数据库，若数据库中存在该地址元素，则返回该地址元素，若不存在，则放宽匹配要求，即采用模糊匹配的方法匹配数据库，直到匹配成功，且输出所有可能的结果；然后再匹配第二个地址元素S₂，以此类推，直到最后一个地址元素S_N匹配完成。

5.根据权利要求3所述的地址匹配方法，其特征在于：所述步骤⑤中加权规则为：地址块集合S中越靠后的地址元素权值越大，且在所述的匹配数据库的过程中，匹配要求越高的地址元素权值越大。