CN110399448B - 中文地名地址搜索匹配方法、终端、计算机可读存储介质 - Google Patents

中文地名地址搜索匹配方法、终端、计算机可读存储介质 Download PDF

Info

Publication number
CN110399448B
CN110399448B CN201910700216.1A CN201910700216A CN110399448B CN 110399448 B CN110399448 B CN 110399448B CN 201910700216 A CN201910700216 A CN 201910700216A CN 110399448 B CN110399448 B CN 110399448B
Authority
CN
China
Prior art keywords
place name
address
matching
chinese
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910700216.1A
Other languages
English (en)
Other versions
CN110399448A (zh
Inventor
李玉苹
宋海涛
尹曦萌
王彦飞
胡焕刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910700216.1A priority Critical patent/CN110399448B/zh
Publication of CN110399448A publication Critical patent/CN110399448A/zh
Application granted granted Critical
Publication of CN110399448B publication Critical patent/CN110399448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种中文地名地址搜索匹配方法、终端、计算机可读存储介质,属于地名地址搜索匹配领域,要解决的技术问题为如何提供中文地址搜索匹配方法,通过该方法规范标准地名地址数据,并提高地名地址匹配率的需求的问题。该方法包括:通过NIFI流程将中文地名地址数据中的索引字段存储至搜索引擎中,将中文地名地址中的属性字段存储至Hbase中;通过搜索引擎对上述索引字段构建索引,并在构建索引过程中配置地址分词器;通过搜索引擎对输入的中文地名地址进行全文检索处理;基于GIS二次开发接口将所述查询结果叠加到地图上。终端,其处理器中程序指令执行上述方法。计算机可读存储介质,其程序指令执行上述方法。

Description

中文地名地址搜索匹配方法、终端、计算机可读存储介质
技术领域
本发明涉及地名地址搜索匹配领域,具体地说是一种中文地名地址搜索匹配方法、终端、计算机可读存储介质。
背景技术
地名地址作为关联政务信息资源和空间地理信息资源的关键纽带,在政务数据融合“一张图”建设上发挥着重要作用,是智慧城市建设的得力工具。但是当前各地市现有地名地址匹配系统存在着地名地址数据不够规范、匹配算法有待合理化升级、匹配精度不高、无法有效为各个政务部门和公众提供地名地址服务的问题,已经明显制约城市政务数据融合共享,成为智慧城市建设过程中的一大障碍。
基于上述问题,如何提供一种中文地址搜索匹配方法,通过该方法规范标准地名地址数据,并提高地名地址匹配率的需求,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种中文地名地址搜索匹配方法、终端、计算机可读存储介质,来解决如何提供中文地址搜索匹配方法,通过该方法规范标准地名地址数据,并提高地名地址匹配率的需求的问题。
第一方面,本发明提供一种中文地名地址搜索匹配方法,包括如下步骤:
通过NIFI流程从中文地名地址标准库中抽取中文地名地址数据,并将中文地名地址数据中的索引字段存储至搜索引擎中,将中文地名地址中的属性字段存储至Hbase中;
通过搜索引擎对上述索引字段构建索引,并在构建索引过程中配置地址分词器,并通过地址分词器对所述索引字段进行分词处理,所述地址分词器用于对中文地名地址进行汉字分词和拼音分词;
通过搜索引擎对输入的中文地名地址进行全文检索处理,得到查询结果,所述查询结果包括但不限于地名数据、地址数据和所属行政区划;
基于GIS二次开发接口将所述查询结果叠加到地图上,通过地图显示所述查询结果。
在上述实施方式中,对于中文地名地址数据库中的中文地名地址数据通过NiFi将需要索引的字段抽取到搜索引擎中,将属性字段抽取到大数据Hbase平台中,然后通过搜索引擎中配置的地址分词器进行中文分词处理,用户输入中文地名地址时,搜索引擎对输入的中文地名地址数据进行全文搜索,实现了地址的搜索匹配,并实现了地名地址的精确匹配、模糊匹配以及逆向匹配功能。
搜索引擎与GIS地图结合,对中文地名地址标准库进行搜索匹配,实现
更优的,将所述查询结果叠加到地图上之前,对查询结果进行规则校验;
所述规则校验,包括:
对超出参考地址范围的地址数据,生成并反馈匹配失败的提醒信息;
对返回的地址数据与所属行政区划进行比较,对于所属行政区划错误的地址数据,生成并反馈超出行政区划边界的提醒信息。
作为优选,搜索引擎为ElasticSearch搜索引擎。
作为优选,所述地址分词器为IK分词器+pingyin分词器;
在构建索引过程中,所述搜索引擎通过Kibana工具配置所述地址分词器。
作为优选,搜索引擎通过其Java High Level REST Client API接口对输入的中文地名地址进行全文检索处理。
作为优选,所述所搜引擎通过Java High Level REST Client API接口对查询结果进行规则校验。
作为优选,GIS二次开发接口通过JavaScript语言调用openlayer接口将返回的地名地址数据展示在地图上。
作为优选,通过搜索引擎对输入的中文地名地址进行全文检索处理,包括如下步骤:
搜索引擎调用地址分词器,对输入的中文地名地址进行地址分词,得到分词后的中文地名地址数据;
通过Java High Level REST Client API调用搜索引擎的查询方法对分词后的中文地名地址数据进行地址筛选,得到初始查询结果;
增加查询地址条件,基于查询地址条件初始查询结果进行地址匹配计算,并选择匹配计算结果为前N名的初始查询结果输出,得到地址匹配后查询结果,N为预设的自然数;
按照评分的高低对上述地址匹配后查询结果进行匹配排序,得到最终查询结果。
第二方面,本发明提供一种终端,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令执行如第一方面任一项所述的一种中文地名地址搜索匹配方法。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,程序指令当被处理器执行时所述处理器执行如第一方面任一项所述的一种中文地名地址搜索匹配方法。
本发明的中文地名地址搜索匹配方法、终端、计算机可读存储介质具有以下优点:
1、本发明结合搜索引擎和GIS地图对中文地名地址标准库进行搜索匹配,提高了中文地名地址匹配的效率和中文地名地址匹配查询的速度,使得中文地名地址系统在政务数据融合“一张图”建设上发挥重要作用,成为智慧城市建设的得力工具;
2、本发明中查询结果反馈到GIS地图中,可直观展示查询结果;
3、本发明对查询结果进行规制校验,确保了查询结果的正确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
附图1为实施例1一种中文地名地址搜索匹配方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供一种中文地名地址搜索匹配方法、终端、计算机可读存储介质,用于解决如何提供一种中文地址搜索匹配方法,通过该方法规范标准地名地址数据,并提高地名地址匹配率的需求的技术问题。
实施例1:
本发明的一种中文地名地址搜索匹配方法,包括如下步骤:
S100、通过NIFI流程从中文地名地址标准库中抽取中文地名地址数据,并将中文地名地址数据中的索引字段存储至搜索引擎中,将中文地名地址中的属性字段存储至Hbase中;
S200、通过搜索引擎对上述索引字段构建索引,并在构建索引过程中配置地址分词器,并通过地址分词器对所述索引字段进行分词处理,所述地址分词器用于对中文地名地址进行汉字分词和拼音分词;
S300、通过搜索引擎对输入的中文地名地址进行全文检索处理,得到查询结果,所述查询结果包括但不限于地名数据、地址数据和所属行政区划;
S400、基于GIS二次开发接口将所述查询结果叠加到地图上,通过地图显示所述查询结果。
步骤S100中,中文地名地址标准库为Mysql数据库,在NIFI中创建抽取流程,通过NIFI抽取流程将需要建立索引的空间以及相关地址数据存储到ElasticSearch搜索引擎中,通过NIFI抽取流程将地名地址数据其他属性相关字段存储到Hbase中,其中,需要建立索引的字段主要包括:地址编码字段、地址字段、名称字段、空间信息字段,属性字段主要包括:所属行政区划、行政区划编码、创建时间等其他信息。
步骤S200中,地址分词器为IK分词器+pinyin分词器,通过该地址分词器进行中文分词处理,通过Kibana工具在ElasticSearch创建索引时对索引字段进行中文分词器与pinyin分词器配置,以便对中文地址数据进行匹配时进行分词处理。
步骤S300中,通过调用ElasticSearch搜索引擎的Java High Level REST ClientAPI接口实现对中文地名地址数据进行全文检索处理,在通过Java High Level RESTClient API进行全文检索之后,得到查询结果,该查询结果包括但不限于地名数据、地址数据和所属行政区划。
上述搜索引擎对输入的中文地名地址进行全文检索处理,包括如下步骤:
(1)搜索引擎调用地址分词器,对输入的中文地名地址进行地址分词,得到分词后的中文地名地址数据;
(2)通过Java High Level REST Client API调用搜索引擎的查询方法对分词后的中文地名地址数据进行地址筛选,得到初始查询结果;
(3)增加查询地址条件,基于查询地址条件初始查询结果进行地址匹配计算,并选择匹配计算结果为前N名的初始查询结果输出,得到地址匹配后查询结果,N为预设的自然数;
(4)按照评分的高低对上述地址匹配后查询结果进行匹配排序,得到最终查询结果。
通过上述方法得到查询结果后,对查询结果数据进行规则校验,该规则校验包括:对超出参考地址范围的地址数据,生成并反馈匹配失败的提醒信息;对返回的地址数据与所属行政区划进行比较,对于所属行政区划错误的地址数据,生成并反馈超出行政区划边界的提醒信息。
步骤S400中,将将查询结果采用GIS二次开发接口叠加到地图中进行实时查看。二次开发接口主要是通过JavaScript语言调用openlayer接口将返回的地名地址数据展示在地图上。
本实施例以大数据技术为支撑,通过ElasticSearch搜索引擎实现中文地名地址的搜索匹配,并提高了中文地名地址匹配的效率以及中文地名地址匹配查询的速度,使得中文地名地址系统在政务数据融合“一张图”建设上发挥重要作用,成为智慧城市建设的得力工具。
实施例2:
本发明的一种终端,包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,存储器用于存储计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令执行实施例1公开的一种中文地名地址搜索匹配方法。
实施例3:
本发明的一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,程序指令当被处理器执行时上述处理器执行如实施例1公开的一种中文地名地址搜索匹配方法。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (7)

1.一种中文地名地址搜索匹配方法,其特征在于包括如下步骤:
通过NIFI流程从中文地名地址标准库中抽取中文地名地址数据,并将中文地名地址数据中的索引字段存储至搜索引擎中,将中文地名地址中的属性字段存储至Hbase中;
通过搜索引擎对上述索引字段构建索引,并在构建索引过程中配置地址分词器,并通过地址分词器对所述索引字段进行分词处理,所述地址分词器用于对中文地名地址进行汉字分词和拼音分词;
通过搜索引擎对输入的中文地名地址进行全文检索处理,得到查询结果,所述查询结果包括但不限于地名数据、地址数据和所属行政区划;
基于GIS二次开发接口将所述查询结果叠加到地图上,通过地图显示所述查询结果;
搜索引擎为ElasticSearch搜索引擎,所述搜索引擎通过其Java High Level RESTClient API接口对输入的中文地名地址进行全文检索处理,通过搜索引擎对输入的中文地名地址进行全文检索处理,包括如下步骤:
搜索引擎调用地址分词器,对输入的中文地名地址进行地址分词,得到分词后的中文地名地址数据;
通过Java High Level REST Client API调用搜索引擎的查询方法对分词后的中文地名地址数据进行地址筛选,得到初始查询结果;
增加查询地址条件,基于查询地址条件初始查询结果进行地址匹配计算,并选择匹配计算结果为前N名的初始查询结果输出,得到地址匹配后查询结果,N为预设的自然数;
按照评分的高低对上述地址匹配后查询结果进行匹配排序,得到最终查询结果。
2.根据权利要求1所述的一种中文地名地址搜索匹配方法,其特征在于将所述查询结果叠加到地图上之前,对查询结果进行规则校验;
所述规则校验,包括:
对超出参考地址范围的地址数据,生成并反馈匹配失败的提醒信息;
对返回的地址数据与所属行政区划进行比较,对于所属行政区划错误的地址数据,生成并反馈超出行政区划边界的提醒信息。
3.根据权利要求1所述的一种中文地名地址搜索匹配方法,其特征在于所述地址分词器为IK分词器+pingyin分词器;
在构建索引过程中,所述搜索引擎通过Kibana工具配置所述地址分词器。
4.根据权利要求3所述的一种中文地名地址搜索匹配方法,其特征在于所述搜索引擎通过Java High Level REST Client API接口对查询结果进行规则校验。
5.根据权利要求1或2所述的一种中文地名地址搜索匹配方法,其特征在于GIS二次开发接口通过JavaScript语言调用openlayer接口将返回的地名地址数据展示在地图上。
6.一种终端,其特征在于包括处理器、输入设备、输出设备和存储器,处理器、输入设备、输出设备和存储器相互连接,存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令执行如权利要求1-5任一项所述的一种中文地名地址搜索匹配方法。
7.一种计算机可读存储介质,其特征在于所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,程序指令当被处理器执行时所述处理器执行如权利要求1-5任一项所述的一种中文地名地址搜索匹配方法。
CN201910700216.1A 2019-07-31 2019-07-31 中文地名地址搜索匹配方法、终端、计算机可读存储介质 Active CN110399448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910700216.1A CN110399448B (zh) 2019-07-31 2019-07-31 中文地名地址搜索匹配方法、终端、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910700216.1A CN110399448B (zh) 2019-07-31 2019-07-31 中文地名地址搜索匹配方法、终端、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110399448A CN110399448A (zh) 2019-11-01
CN110399448B true CN110399448B (zh) 2023-06-09

Family

ID=68326899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910700216.1A Active CN110399448B (zh) 2019-07-31 2019-07-31 中文地名地址搜索匹配方法、终端、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110399448B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163070B (zh) * 2020-09-27 2024-02-27 杭州海康威视系统技术有限公司 地名匹配方法、装置、电子设备及机器可读存储介质
CN112612863B (zh) * 2020-12-23 2023-03-31 武汉大学 一种基于中文分词器的地址匹配方法及系统
CN112800058A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种HBase二级索引的实现方法
CN112800149B (zh) * 2021-02-18 2023-08-08 浪潮云信息技术股份公司 基于数据血缘分析的数据治理方法及系统
CN114547062A (zh) * 2022-02-28 2022-05-27 政采云有限公司 一种公告的获取方法、装置以及介质
CN118467860A (zh) * 2024-07-15 2024-08-09 北斗伏羲信息技术有限公司 时空数据引擎及网格数据引接、检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
WO2016019925A1 (zh) * 2014-08-08 2016-02-11 腾讯科技(深圳)有限公司 搜索方法、服务器及客户端
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9727595B2 (en) * 2013-09-20 2017-08-08 Uber Technologies, Inc. Location searching with category indices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605752A (zh) * 2013-11-21 2014-02-26 武大吉奥信息技术有限公司 一种基于语义识别的地址匹配方法
WO2016019925A1 (zh) * 2014-08-08 2016-02-11 腾讯科技(深圳)有限公司 搜索方法、服务器及客户端
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN109145169A (zh) * 2018-07-26 2019-01-04 浙江省测绘科学技术研究院 一种基于统计分词的地址匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现;柴洁;《城市勘测》;20141231(第06期);全文 *

Also Published As

Publication number Publication date
CN110399448A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110399448B (zh) 中文地名地址搜索匹配方法、终端、计算机可读存储介质
CN111061859A (zh) 基于知识图谱的数据处理方法、装置和计算机设备
CN111325022B (zh) 识别层级地址的方法和装置
CN114610845B (zh) 基于多系统的智能问答方法、装置和设备
CN112559717B (zh) 搜索匹配方法、装置、电子设备以及存储介质
CN111046237A (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US20230194302A1 (en) Method of updating map data, electronic device and storage medium
CN112905178B (zh) 业务功能页面生成方法、装置、设备及介质
US20180268300A1 (en) Generating natural language answers automatically
CN111625638A (zh) 一种问句处理方法、装置、设备及可读存储介质
CN114610955A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN110737820B (zh) 用于生成事件信息的方法和装置
CN117971698A (zh) 测试用例生成方法、装置、电子设备和存储介质
CN111984797A (zh) 客户身份识别装置及方法
CN111552527A (zh) 用户界面内文字翻译方法、装置、系统及存储介质
CN114547066A (zh) 核电业务数据的标准化方法、装置和计算机设备
CN110297818B (zh) 构建数据仓库的方法及装置
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN107220255B (zh) 地址信息处理方法及装置
CN112905388B (zh) 页面配置信息处理方法及装置
CN117112654B (zh) 城市数据展示方法、装置、计算机设备和存储介质
CN117891531B (zh) 用于saas软件的系统参数配置方法、系统、介质及电子设备
CN113822057B (zh) 地点信息确定方法、装置、电子设备以及存储介质
CN110895584B (zh) 用于生成数据的方法和装置
CN112015466A (zh) 信息检索方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant