CN109344263A - 一种地址匹配方法 - Google Patents
一种地址匹配方法 Download PDFInfo
- Publication number
- CN109344263A CN109344263A CN201810860041.6A CN201810860041A CN109344263A CN 109344263 A CN109344263 A CN 109344263A CN 201810860041 A CN201810860041 A CN 201810860041A CN 109344263 A CN109344263 A CN 109344263A
- Authority
- CN
- China
- Prior art keywords
- address
- matching
- dictionary
- matching method
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000011430 maximum method Methods 0.000 claims abstract description 11
- 238000006467 substitution reaction Methods 0.000 claims abstract description 11
- 238000003058 natural language processing Methods 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000005192 partition Methods 0.000 abstract description 4
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。首先建立分词词典、地址分级词典与常见地址缩略词替代词典;然后对输入的待匹配的地址字符串进行预处理;其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;最后将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。本发明通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,主要解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
Description
技术领域
本发明涉及一种地址匹配方法,属于地理信息数据处理技术领域。
背景技术
随着地理信息技术的快速发展和广泛应用,地址匹配技术能把含有位置的文字信息与空间信息关联起来,从而提供数据分析、定位、制图和可视化等服务,地名地址的智能化、高效率和高准确率匹配在数字城市建设和人们生活中发挥着不可或缺的作用,社会效益与经济效益极其显著。
一般地,基于词典的地址匹配方法虽然能够从一定程度上提高效率与准确率,但是匹配过程过分依赖于词典,在出现未登录词和干扰词的情况下地址匹配的准确率较低;同样地,基于规则的地址匹配方法虽然解决了未登录词识别和歧义切分等问题,但是通用规则的制定存在一定困难。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种地址匹配方法,将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
本发明的技术方案是:一种地址匹配方法,该方法将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,对传统的地址匹配方法进行改进,具体包括以下5个步骤:
①建立分词词典、地址分级词典与常见地址缩略词替代词典。
②输入待匹配的地址字符串。
③对输入的待匹配的地址字符串进行预处理。
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
进一步地,步骤①所述的分词词典有高度的通用性与高覆盖率,以提高分词的准确率;所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划,以在匹配数据库时能有更高的匹配率;所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址,以提高在匹配数据库时的准确率。
进一步地,步骤②所述的待匹配的地址字符串可以为任意字符串。
进一步地,步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
进一步地,所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法,以提高分词的准确率;所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定;所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。
进一步地,步骤④所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,如省、市、区、镇、路等,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果。
进一步地,步骤③和步骤④所述的预处理和所述的二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
进一步地,步骤⑤所述的匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
进一步地,步骤⑤所述的加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
进一步地,步骤⑤所述的相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
其中,和为需要进行比较的第i对地址要素的向量形式,和为向量和的模。
进一步地,步骤⑤所述的得到相似度最高的地址字符串的计算公式为:
其中,Pi为第i个地址要素的权重。
本发明的有益效果是:通过将基于词典的地址匹配方法与基于规则的地址匹配方法进行融合,再结合自然语言处理技术,主要解决了单一的地址匹配方法存在歧义切分,对新词识别率低,从而使得地址匹配结果准确率低的现象,以提高地址匹配的准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤③流程图;
图3是本发明步骤④流程图;
图4是本发明步骤⑤流程图。
具体实施方式
下面结合具体实施方式,对本发明作进一步说明。
实施例1:如图1-4所示,一种地址匹配方法,首先建立分词词典、地址分级词典与常见地址缩略词替代词典;然后对输入的待匹配的地址字符串进行预处理;其次将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;最后将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
具体步骤为:
①建立分词词典、地址分级词典与常见地址缩略词替代词典。
②输入待匹配的地址字符串。
③对输入的待匹配的地址字符串进行预处理。
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理。
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
进一步地,步骤①所述的分词词典有高度的通用性与高覆盖率,以提高分词的准确率;所述的地址分词词典包含中国所有省份、城市、乡镇、街道、村等行政区划,以在匹配数据库时能有更高的匹配率;所述的常见地址缩略词替代词典用来替代所述地址字符串中的缩略地址,以提高在匹配数据库时的准确率。
进一步地,步骤②所述的待匹配的地址字符串可以为任意字符串。
进一步地,步骤③所述的预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
进一步地,所述的地址分词是在分词词典的基础上采用正向最大匹配算法和逆向最大匹配算法,以提高分词的准确率;所述的去除标点和所述的过滤掉无用的信息采用正则表达式来判定;所述的常见的地址缩略词替代是用已建立好的常见地址缩略词替代词典来实现。
进一步地,步骤④所述的基于规则的地址匹配方法具体实现为:当预处理中基于正向最大匹配和基于逆向最大匹配中出现不同的分词结果时,若分词结果中含有主特征字,如省、市、区、镇、路等,则用所述的基于规则的地址匹配方法通过匹配数据库进行歧义消除;否则用所述的自然语言处理技术分别对正向最大匹配算法和逆向最大匹配算法得到的不同的分词结果进行词性标注,然后使用viterbi算法求出概率最大的分词结果。
进一步地,步骤③和步骤④所述的预处理和所述的二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
进一步地,步骤⑤所述的匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
进一步地,步骤⑤所述的加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
进一步地,步骤⑤所述的相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
其中,和为需要进行比较的第i对地址要素的向量形式,和为向量和的模。
进一步地,步骤⑤所述的得到相似度最高的地址字符串的计算公式为:
其中,Pi为第i个地址要素的权重。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种地址匹配方法,其特征在于:
①建立分词词典、地址分级词典与常见地址缩略词替代词典;
②输入待匹配的地址字符串;
③对输入的待匹配的地址字符串进行预处理;
④将预处理中基于正向最大匹配和基于逆向最大匹配中不同的分词结果用基于规则的地址匹配方法和自然语言处理技术进行二次处理;
⑤将得到的所有分词结果匹配数据库后再加权,得到若干种匹配结果,最后通过相似度计算,得到相似度最高的地址字符串。
2.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤②中待匹配的地址字符串可以为任意字符串。
3.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤③中预处理包含地址分词、去除标点、过滤掉无用信息和常见的地址缩略词替代。
4.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤③中预处理和所述步骤④中二次处理后得到的分词结果,即地址块集合S为:
S={S1,S2,...,SN}
其中,N为分词后得到的地址块总个数。
5.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤⑤中匹配数据库的具体流程是:首先将所述地址块集合S中第一个地址元素S1匹配数据库,若数据库中存在该地址元素,则返回该地址元素,若不存在,则放宽匹配要求,即采用模糊匹配的方法匹配数据库,直到匹配成功,且输出所有可能的结果;然后再匹配第二个地址元素S2,以此类推,直到最后一个地址元素SN匹配完成。
6.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤⑤中加权规则为:地址块集合S中越靠后的地址元素权值越大,且在所述的匹配数据库的过程中,匹配要求越高的地址元素权值越大。
7.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤⑤中相似度计算采用余弦相似性算法,每个地址要素的相似度sim(Ai,Bi)计算公式为:
其中,和为需要进行比较的第i对地址要素的向量形式,和为向量和的模。
8.根据权利要求1所述的地址匹配方法,其特征在于:所述步骤⑤中得到相似度最高的地址字符串的计算公式为:
其中,Pi为第i个地址要素的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860041.6A CN109344263B (zh) | 2018-08-01 | 2018-08-01 | 一种地址匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810860041.6A CN109344263B (zh) | 2018-08-01 | 2018-08-01 | 一种地址匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344263A true CN109344263A (zh) | 2019-02-15 |
CN109344263B CN109344263B (zh) | 2022-07-19 |
Family
ID=65291377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810860041.6A Active CN109344263B (zh) | 2018-08-01 | 2018-08-01 | 一种地址匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344263B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104801A (zh) * | 2019-12-26 | 2020-05-05 | 济南大学 | 基于网址域名的文本分词方法、系统、设备及介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、系统 |
CN112559658A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学技术大学 | 一种地址匹配方法及装置 |
CN112581252A (zh) * | 2020-12-03 | 2021-03-30 | 信用生活(广州)智能科技有限公司 | 融合多维相似度与规则集合的地址模糊匹配方法及系统 |
CN115840800A (zh) * | 2023-02-27 | 2023-03-24 | 江苏曼荼罗软件股份有限公司 | 患者信息匹配方法、系统、计算机及可读存储介质 |
CN116010562A (zh) * | 2023-03-28 | 2023-04-25 | 之江实验室 | 一种基于多数据源的姓名匹配方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178733A (zh) * | 2007-12-07 | 2008-05-14 | 彭海杰 | 一种关联数据的索引、检索、存储和显示控制的信息系统 |
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
US20120246168A1 (en) * | 2011-03-21 | 2012-09-27 | Tata Consultancy Services Limited | System and method for contextual resume search and retrieval based on information derived from the resume repository |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN103914544A (zh) * | 2014-04-03 | 2014-07-09 | 浙江大学 | 一种基于地址特征词的多层次快速中文地址匹配方法 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN106909611A (zh) * | 2017-01-11 | 2017-06-30 | 北京众荟信息技术股份有限公司 | 一种基于文本信息抽取的酒店自动匹配方法 |
US20170323198A1 (en) * | 2016-05-03 | 2017-11-09 | Fujitsu Limited | Neural network mapping dictionary generation |
-
2018
- 2018-08-01 CN CN201810860041.6A patent/CN109344263B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101178733A (zh) * | 2007-12-07 | 2008-05-14 | 彭海杰 | 一种关联数据的索引、检索、存储和显示控制的信息系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
US20120246168A1 (en) * | 2011-03-21 | 2012-09-27 | Tata Consultancy Services Limited | System and method for contextual resume search and retrieval based on information derived from the resume repository |
CN103605752A (zh) * | 2013-11-21 | 2014-02-26 | 武大吉奥信息技术有限公司 | 一种基于语义识别的地址匹配方法 |
CN103914544A (zh) * | 2014-04-03 | 2014-07-09 | 浙江大学 | 一种基于地址特征词的多层次快速中文地址匹配方法 |
CN105022748A (zh) * | 2014-04-28 | 2015-11-04 | 北京图盟科技有限公司 | 一种运单地址分级方法及装置 |
CN105005577A (zh) * | 2015-05-08 | 2015-10-28 | 裴克铭管理咨询(上海)有限公司 | 一种地址匹配方法 |
US20170323198A1 (en) * | 2016-05-03 | 2017-11-09 | Fujitsu Limited | Neural network mapping dictionary generation |
CN106909611A (zh) * | 2017-01-11 | 2017-06-30 | 北京众荟信息技术股份有限公司 | 一种基于文本信息抽取的酒店自动匹配方法 |
Non-Patent Citations (2)
Title |
---|
吴睿等: "一种多策略结合的地址匹配算法", 《河南理工大学学报(自然科学版)》 * |
程昌秀等: "一种基于规则的模糊中文地址分词匹配方法", 《地理与地理信息科学》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112115214B (zh) * | 2019-06-20 | 2024-04-02 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN111104801A (zh) * | 2019-12-26 | 2020-05-05 | 济南大学 | 基于网址域名的文本分词方法、系统、设备及介质 |
CN111104801B (zh) * | 2019-12-26 | 2023-09-26 | 济南大学 | 基于网址域名的文本分词方法、系统、设备及介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111625732B (zh) * | 2020-05-25 | 2023-06-23 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN112182313A (zh) * | 2020-09-30 | 2021-01-05 | 国网青海省电力公司 | 一种继电保护定值名称匹配方法、系统 |
CN112581252A (zh) * | 2020-12-03 | 2021-03-30 | 信用生活(广州)智能科技有限公司 | 融合多维相似度与规则集合的地址模糊匹配方法及系统 |
CN112559658A (zh) * | 2020-12-08 | 2021-03-26 | 中国科学技术大学 | 一种地址匹配方法及装置 |
CN112559658B (zh) * | 2020-12-08 | 2022-12-30 | 中国科学技术大学 | 一种地址匹配方法及装置 |
CN115840800A (zh) * | 2023-02-27 | 2023-03-24 | 江苏曼荼罗软件股份有限公司 | 患者信息匹配方法、系统、计算机及可读存储介质 |
CN116010562A (zh) * | 2023-03-28 | 2023-04-25 | 之江实验室 | 一种基于多数据源的姓名匹配方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109344263B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344263A (zh) | 一种地址匹配方法 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN111783419A (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN108647350A (zh) | 一种基于双通道网络的图文关联检索方法 | |
CN107220277A (zh) | 基于手绘草图的图像检索算法 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN108647577A (zh) | 一种自适应难例挖掘的行人重识别模型、方法与系统 | |
CN103488724A (zh) | 一种面向图书的阅读领域知识图谱构建方法 | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN106909611B (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN107885760A (zh) | 一种基于多种语义的知识图谱表示学习方法 | |
CN114564966A (zh) | 一种基于知识图谱的空间关系语义分析的方法 | |
CN108536657B (zh) | 人为填写的地址文本相似度处理方法和系统 | |
CN108073576A (zh) | 智能搜索方法、搜索装置以及搜索引擎系统 | |
CN111444298A (zh) | 一种基于兴趣点知识图谱预训练的地址匹配算法 | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN110059177A (zh) | 一种基于用户画像的活动推荐方法及装置 | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN112926323B (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN112148735B (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN116663662B (zh) | 基于多源语义网络的地理实体多层次关系构建方法及装置 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN109033746A (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN114491056A (zh) | 数字警务场景下的改进poi搜索的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |