CN109344263B - 一种地址匹配方法 - Google Patents

一种地址匹配方法 Download PDF

Info

Publication number
CN109344263B
CN109344263B CN201810860041.6A CN201810860041A CN109344263B CN 109344263 B CN109344263 B CN 109344263B CN 201810860041 A CN201810860041 A CN 201810860041A CN 109344263 B CN109344263 B CN 109344263B
Authority
CN
China
Prior art keywords
address
matching
word segmentation
matching method
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810860041.6A
Other languages
English (en)
Other versions
CN109344263A (zh
Inventor
龙华
吴睿
熊新
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810860041.6A priority Critical patent/CN109344263B/zh
Publication of CN109344263A publication Critical patent/CN109344263A/zh
Application granted granted Critical
Publication of CN109344263B publication Critical patent/CN109344263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。首先建立分词词典、地址分级词典与常见地址缩略词替代词典;然后对输入的待匹配的地址字符串进行预处理;其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;最后将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。本发明通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,主要解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。

Description

一种地址匹配方法
技术领域
本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。
背景技术
随着地理信息技术的快速发展和广泛应用,地址匹配技术能把含有位置的文字信息与空间信息关联起来,从而提供数据分析、定位、制图和可视化等服务,地名地址的智能化、高效率和高准确率匹配在数字城市建设和人们生活中发挥着不可或缺的作用,社会效益与经济效益极其显著。
一般地,基于词典的地址匹配方法虽然能够从一定程度上提高效率与准确率,但是匹配过程过分依赖于词典,在出现未登录词和干扰词的情况下地址匹配的准确率较低;同样地,基于规则的地址匹配方法虽然解决了未登录词识别和歧义切分等问题,但是通用规则的制定存在一定困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种地址匹配方法,将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
本发明的技术方案是:一种地址匹配方法,该方法将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,具体包括以下5个步骤:
①建立分词词典、地址分级词典与常见地址缩略词替代词典。
②输入待匹配的地址字符串。
③对输入的待匹配的地址字符串进行预处理。
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
进一步地,步骤①所述的分词词典有高度的通用性与高覆盖率,以提高分词的准确率;所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划,以在匹配数据库时能有更高的匹配率;所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址,以提高在匹配数据库时的准确率。
进一步地,步骤②所述的待匹配的地址字符串可以为任意字符串。
进一步地,步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
进一步地,所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法,以提高分词的准确率;所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定;所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。
进一步地,步骤④所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,如省、市、区、镇、路等,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果。
进一步地,步骤③和步骤④所述的预处理和所述的二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
进一步地,步骤⑤所述的匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
进一步地,步骤⑤所述的加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
进一步地,步骤⑤所述的相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
Figure BDA0001749412760000021
其中,
Figure BDA0001749412760000022
Figure BDA0001749412760000023
为需要进行比较的第i对地址要素的向量形式,
Figure BDA0001749412760000024
Figure BDA0001749412760000025
为向量
Figure BDA0001749412760000026
Figure BDA0001749412760000027
的模。
进一步地,步骤⑤所述的得到相似度最高的地址字符串的计算公式为:
Figure BDA0001749412760000031
其中,Pi为第i个地址要素的权重。
本发明的有益效果是:通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,主要解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤③流程图;
图3是本发明步骤④流程图;
图4是本发明步骤⑤流程图。
具体实施方式
下面结合具体实施方式,对本发明作进一步说明。
实施例1:如图1-4所示,一种地址匹配方法,首先建立分词词典、地址分级词典与常见地址缩略词替代词典;然后对输入的待匹配的地址字符串进行预处理;其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;最后将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
具体步骤为:
①建立分词词典、地址分级词典与常见地址缩略词替代词典。
②输入待匹配的地址字符串。
③对输入的待匹配的地址字符串进行预处理。
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
进一步地,步骤①所述的分词词典有高度的通用性与高覆盖率,以提高分词的准确率;所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划,以在匹配数据库时能有更高的匹配率;所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址,以提高在匹配数据库时的准确率。
进一步地,步骤②所述的待匹配的地址字符串可以为任意字符串。
进一步地,步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
进一步地,所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法,以提高分词的准确率;所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定;所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。
进一步地,步骤④所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,如省、市、区、镇、路等,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果。
进一步地,步骤③和步骤④所述的预处理和所述的二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
进一步地,步骤⑤所述的匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
进一步地,步骤⑤所述的加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
进一步地,步骤⑤所述的相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
Figure BDA0001749412760000041
其中,
Figure BDA0001749412760000042
Figure BDA0001749412760000043
为需要进行比较的第i对地址要素的向量形式,
Figure BDA0001749412760000044
Figure BDA0001749412760000045
为向量
Figure BDA0001749412760000046
Figure BDA0001749412760000047
的模。
进一步地,步骤⑤所述的得到相似度最高的地址字符串的计算公式为:
Figure BDA0001749412760000048
其中,Pi为第i个地址要素的权重。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种地址匹配方法,其特征在于:
①建立分词词典、地址分级词典与常见地址缩略词替代词典;
②输入待匹配的地址字符串;
③对输入的待匹配的地址字符串进行预处理;
所述预处理包含地址分词、去除标点、过滤掉无用信息和地址缩略词替代;
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;
所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果;
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串;
所述相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
Figure FDA0003652197840000011
其中,
Figure FDA0003652197840000012
Figure FDA0003652197840000013
为需要进行比较的第i对地址要素的向量形式,
Figure FDA0003652197840000014
Figure FDA0003652197840000015
为向量
Figure FDA0003652197840000016
Figure FDA0003652197840000017
的模;
所述步骤⑤中得到相似度最高的地址字符串的计算公式为:
Figure FDA0003652197840000018
其中,Pi为第i个地址要素的权重。
2.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤②中待匹配的地址字符串可以为任意字符串。
3.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤③中预处理和所述步骤④中二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
4.根据权利要求3所述的地址匹配方法,其特征在于:所述步骤⑤中匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
5.根据权利要求3所述的地址匹配方法,其特征在于:所述步骤⑤中加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
CN201810860041.6A 2018-08-01 2018-08-01 一种地址匹配方法 Active CN109344263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810860041.6A CN109344263B (zh) 2018-08-01 2018-08-01 一种地址匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810860041.6A CN109344263B (zh) 2018-08-01 2018-08-01 一种地址匹配方法

Publications (2)

Publication Number Publication Date
CN109344263A CN109344263A (zh) 2019-02-15
CN109344263B true CN109344263B (zh) 2022-07-19

Family

ID=65291377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810860041.6A Active CN109344263B (zh) 2018-08-01 2018-08-01 一种地址匹配方法

Country Status (1)

Country Link
CN (1) CN109344263B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115214B (zh) * 2019-06-20 2024-04-02 中科聚信信息技术(北京)有限公司 地址标准化方法、地址标准化装置和电子设备
CN111104801B (zh) * 2019-12-26 2023-09-26 济南大学 基于网址域名的文本分词方法、系统、设备及介质
CN111625732B (zh) * 2020-05-25 2023-06-23 鼎富智能科技有限公司 地址匹配方法及装置
CN112182313A (zh) * 2020-09-30 2021-01-05 国网青海省电力公司 一种继电保护定值名称匹配方法、系统
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112559658B (zh) * 2020-12-08 2022-12-30 中国科学技术大学 一种地址匹配方法及装置
CN115840800B (zh) * 2023-02-27 2023-05-12 江苏曼荼罗软件股份有限公司 患者信息匹配方法、系统、计算机及可读存储介质
CN116010562B (zh) * 2023-03-28 2023-07-07 之江实验室 一种基于多数据源的姓名匹配方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178733A (zh) * 2007-12-07 2008-05-14 彭海杰 一种关联数据的索引、检索、存储和显示控制的信息系统
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
EP2503477B1 (en) * 2011-03-21 2017-08-30 Tata Consultancy Services Limited A system and method for contextual resume search and retrieval based on information derived from the resume repository
CN103914544A (zh) * 2014-04-03 2014-07-09 浙江大学 一种基于地址特征词的多层次快速中文地址匹配方法
US10496921B2 (en) * 2016-05-03 2019-12-03 Fujitsu Limited Neural network mapping dictionary generation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101178733A (zh) * 2007-12-07 2008-05-14 彭海杰 一种关联数据的索引、检索、存储和显示控制的信息系统
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN105022748A (zh) * 2014-04-28 2015-11-04 北京图盟科技有限公司 一种运单地址分级方法及装置
CN105005577A (zh) * 2015-05-08 2015-10-28 裴克铭管理咨询(上海)有限公司 一种地址匹配方法
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于规则的模糊中文地址分词匹配方法;程昌秀等;《地理与地理信息科学》;20110515;第27卷(第3期);26-29 *
一种多策略结合的地址匹配算法;吴睿等;《河南理工大学学报(自然科学版)》;20190617;第38卷(第5期);124-129 *

Also Published As

Publication number Publication date
CN109344263A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344263B (zh) 一种地址匹配方法
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN103514201B (zh) 一种非关系型数据库的数据查询方法和装置
CN108776762B (zh) 一种数据脱敏的处理方法及装置
CN103440311A (zh) 一种地名实体识别的方法及系统
CN108369582B (zh) 一种地址纠错方法及终端
CN111783419A (zh) 地址相似度计算方法、装置、设备和存储介质
CN108920720A (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN101605126B (zh) 一种多协议数据分类识别的方法和系统
CN107562831A (zh) 一种基于全文检索的精确查找方法
CN109165273B (zh) 一种面向大数据环境的通用中文地址匹配方法
CN108536657B (zh) 人为填写的地址文本相似度处理方法和系统
CN105808709A (zh) 人脸识别快速检索方法及装置
CN109933797A (zh) 基于Jieba分词及地址词库的地理编码方法和系统
CN106874287A (zh) 一种兴趣点poi地址编码的处理方法及装置
CN108268440A (zh) 一种未登录词识别方法
CN111444298A (zh) 一种基于兴趣点知识图谱预训练的地址匹配算法
CN108595582A (zh) 一种基于社会信号的灾害性气象热点事件识别方法
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN114780680A (zh) 基于地名地址数据库的检索与补全方法及系统
CN110399613B (zh) 一种基于词性标注的互联网新闻涉及地名识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant