CN105512121A - 基于关键词的地址查询方法 - Google Patents
基于关键词的地址查询方法 Download PDFInfo
- Publication number
- CN105512121A CN105512121A CN201410489016.3A CN201410489016A CN105512121A CN 105512121 A CN105512121 A CN 105512121A CN 201410489016 A CN201410489016 A CN 201410489016A CN 105512121 A CN105512121 A CN 105512121A
- Authority
- CN
- China
- Prior art keywords
- keyword
- address
- coordinate
- keywords
- administrative region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于关键词的地址查询方法,该方法包括以下步骤:a)获取原始地址数据;b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域;c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引;d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询。其目的在于提供一种提高预处理对地址解析的帮助、提高地址解析精度、避免地址解析对分词算法依赖的基于关键词的地址查询方法。
Description
技术领域
本发明涉及一种地址查询方法,尤其涉及一种基于关键词的地址查询方法。
背景技术
现有的地址坐标匹配技术大部分采用的是利用词典,词表,后缀关键词列表对地址进行按等级分词,模糊匹配,或者插值匹配的的技术进行的。例如:北京灵图软件技术有限公司论文:《基于分词的地址匹配技术》采用利用词典后缀表,反向查找父节点的地址分词技术。百度专利:百度地址数据库的构建方法及装置发明专利(申请号:201010540090.5)采用补充范式地址的分词方法进行。百度专利:百度地址查询方法及系统(申请号:201010540118.5),采用的方法为先对地址进行模糊查询,然后对得到的近似地址进行线插值得到坐标。浙江工业大学专利:一种基于模糊匹配的中文地理编码确定方法(专利申请号200910156650.4),采用的是对地址分词后数组进行模糊匹配的方式进行。以上地址匹配技术,缺点在于对分词算法精度要求高,模糊匹配过程准确度差,且对于地址解析提前预处理的能力差。
发明内容
本发明的目的在于提供一种提高预处理对地址解析的帮助、提高地址解析精度、避免地址解析对分词算法依赖的基于关键词的地址查询方法。
本发明基于关键词的地址查询方法,包括以下步骤:
a)获取原始地址数据;
b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域;
c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引;
d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对所述查询地址提取的关键词和行政区域添加到所述关键词语坐标匹配数据库中。
本发明基于关键词的地址查询方法,所述关键词提取算法为条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
本发明基于关键词的地址查询方法,通过构建关键词与坐标匹配数据库完成的地址解析预处理,当待查询地址到来时,使用关键词提取算法提取待查询地址中的关键词,并使用该关键词在数据库中查询,如果匹配到一致的则直接得到该地址对应的坐标,完成地址解析。传统的地址由于写法多样,比如数据库中存储了“北京市农大南路1号院硅谷亮城2A605”,但是待查询地址是“北京市上地硅谷亮城汇通天下”,它们实质上是同一地址,但是匹配不上,本发明在地址解析预处理时,通过关键词提取算法提取“硅谷亮城”作为关键词、“北京市”作为行政区域,数据库中只存储关键词“硅谷亮城”、行政区域“北京市”及其匹配的坐标就可以解决这个问题,所以提高了预处理对地址解析的帮助、同时提高了地址解析精度,也避免了了传统地址解析对分词算法的依赖。
下面结合附图对本发明的基于关键词的地址查询方法作进一步详细说明。
附图说明
图1为本发明的基于关键词的地址查询方法的示意图。
具体实施方式
本发明基于关键词的地址查询方法,包括以下步骤:
a)获取原始地址数据,其中,该原始地址数据包括地址的文本信息和坐标信息,获取的途径有多种,例如通过互联网数据收集途径;
b)通过关键词提取算法提取原始地址数据中的关键词和行政区域;
c)用步骤b)中提取的关键词和行政区域,与原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为关键词建立索引;
d)利用关键词提取算法对待查询地址“北京市海淀区上地农大南路1号院硅谷亮城2A605”提取关键词和行政区域,提取的关键词为“硅谷亮城”,提取的行政区域为“北京市海淀区”,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对查询地址提取的关键词和行政区域添加到关键词语坐标匹配数据库中。
关键词提取算法使用条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
Claims (2)
1.基于关键词的地址查询方法,其特征在于该方法包括以下步骤:
a)获取原始地址数据;
b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域;
c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引;
d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对所述查询地址提取的关键词和行政区域添加到所述关键词语坐标匹配数据库中。
2.根据权利要求1所述的基于关键词的地址查询方法,其特征在于:所述关键词提取算法为条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410489016.3A CN105512121A (zh) | 2014-09-23 | 2014-09-23 | 基于关键词的地址查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410489016.3A CN105512121A (zh) | 2014-09-23 | 2014-09-23 | 基于关键词的地址查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105512121A true CN105512121A (zh) | 2016-04-20 |
Family
ID=55720112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410489016.3A Pending CN105512121A (zh) | 2014-09-23 | 2014-09-23 | 基于关键词的地址查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512121A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021336A (zh) * | 2016-05-09 | 2016-10-12 | 厦门四方中信科技有限公司 | 一种对批量地址信息进行自动行政区划划分的方法 |
CN109299402A (zh) * | 2018-07-23 | 2019-02-01 | 广州都市圈网络科技有限公司 | 基于要素预分段的地址匹配方法 |
CN110175216A (zh) * | 2019-05-15 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN110852620A (zh) * | 2019-11-12 | 2020-02-28 | 上海德启信息科技有限公司 | 物流订单的处理方法及装置、电子设备、存储介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN112835899A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址库索引方法、地址匹配方法以及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174259A1 (en) * | 2006-01-13 | 2007-07-26 | E-Centives, Inc. | Coupon and internet search method and system with mapping engine |
CN101777082A (zh) * | 2010-03-01 | 2010-07-14 | 苏州数字地图网络科技有限公司 | 一种文字信息与地理信息的关联方法及系统 |
CN101996247A (zh) * | 2010-11-10 | 2011-03-30 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN102169503A (zh) * | 2011-04-29 | 2011-08-31 | 北京百度网讯科技有限公司 | 一种获取与用户查询序列相对应的搜索结果的方法与设备 |
CN102646124A (zh) * | 2012-02-27 | 2012-08-22 | 杨志远 | 一种自动识别地址信息的方法 |
-
2014
- 2014-09-23 CN CN201410489016.3A patent/CN105512121A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174259A1 (en) * | 2006-01-13 | 2007-07-26 | E-Centives, Inc. | Coupon and internet search method and system with mapping engine |
CN101777082A (zh) * | 2010-03-01 | 2010-07-14 | 苏州数字地图网络科技有限公司 | 一种文字信息与地理信息的关联方法及系统 |
CN101996247A (zh) * | 2010-11-10 | 2011-03-30 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
CN102169498A (zh) * | 2011-04-14 | 2011-08-31 | 中国测绘科学研究院 | 一种地址模型的构建方法,以及地址匹配的方法和系统 |
CN102169503A (zh) * | 2011-04-29 | 2011-08-31 | 北京百度网讯科技有限公司 | 一种获取与用户查询序列相对应的搜索结果的方法与设备 |
CN102646124A (zh) * | 2012-02-27 | 2012-08-22 | 杨志远 | 一种自动识别地址信息的方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021336A (zh) * | 2016-05-09 | 2016-10-12 | 厦门四方中信科技有限公司 | 一种对批量地址信息进行自动行政区划划分的方法 |
CN109299402A (zh) * | 2018-07-23 | 2019-02-01 | 广州都市圈网络科技有限公司 | 基于要素预分段的地址匹配方法 |
CN110175216A (zh) * | 2019-05-15 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 坐标纠错方法、装置和计算机设备 |
CN110852620A (zh) * | 2019-11-12 | 2020-02-28 | 上海德启信息科技有限公司 | 物流订单的处理方法及装置、电子设备、存储介质 |
CN110852620B (zh) * | 2019-11-12 | 2024-03-05 | 上海德启信息科技有限公司 | 物流订单的处理方法及装置、电子设备、存储介质 |
CN111625732A (zh) * | 2020-05-25 | 2020-09-04 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN111625732B (zh) * | 2020-05-25 | 2023-06-23 | 鼎富智能科技有限公司 | 地址匹配方法及装置 |
CN112835899A (zh) * | 2021-01-29 | 2021-05-25 | 上海寻梦信息技术有限公司 | 地址库索引方法、地址匹配方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512121A (zh) | 基于关键词的地址查询方法 | |
US20200349175A1 (en) | Address Search Method and Device | |
CN104142915B (zh) | 一种添加标点的方法和系统 | |
JP5543458B2 (ja) | 地理的特性の一致による地域的コンテンツの提供 | |
CN104011712B (zh) | 对跨语言查询建议的查询翻译进行评价 | |
CN103971684B (zh) | 一种添加标点的方法、系统及其语言模型建立方法、装置 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN105045847B (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN103594085A (zh) | 一种提供语音识别结果的方法及系统 | |
CN103473289A (zh) | 一种通信地址补全的装置及方法 | |
CN104199842A (zh) | 一种基于局部特征邻域信息的相似图片检索方法 | |
CN101963962A (zh) | 兴趣点数据关联方法及装置 | |
CN105373588A (zh) | 快递分拣装置及方法 | |
CN106874287A (zh) | 一种兴趣点poi地址编码的处理方法及装置 | |
CN113065057B (zh) | 一种数据信息真实性校验方法、装置、设备及存储介质 | |
CN103491089A (zh) | 一种基于http的数据还原中的转码方法及系统 | |
CN104601554B (zh) | 一种数据交换方法及数据交换装置 | |
CN105404693A (zh) | 一种基于需求语义的服务聚类方法 | |
CN102646124A (zh) | 一种自动识别地址信息的方法 | |
CN100456293C (zh) | 一种信息快捷搜索客户端、系统及方法 | |
CN105005619A (zh) | 一种海量网站基础信息的快速检索方法和系统 | |
CN105653717A (zh) | 一种信息分享的方法及装置 | |
CN105205173A (zh) | 基于关键词数据库检索的快递分拣装置及方法 | |
CN103425646A (zh) | 一种web服务发现方法及其装置 | |
CN101404673B (zh) | 一种获取综合信息的方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160420 |