CN103744854A - 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 - Google Patents

一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 Download PDF

Info

Publication number
CN103744854A
CN103744854A CN201310567022.1A CN201310567022A CN103744854A CN 103744854 A CN103744854 A CN 103744854A CN 201310567022 A CN201310567022 A CN 201310567022A CN 103744854 A CN103744854 A CN 103744854A
Authority
CN
China
Prior art keywords
data
matching
technology
address
check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310567022.1A
Other languages
English (en)
Inventor
张鹏
曾汀
朱军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing is a number of Polytron Technologies Inc
Original Assignee
BEIJING CORRECTGRIDS INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CORRECTGRIDS INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING CORRECTGRIDS INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310567022.1A priority Critical patent/CN103744854A/zh
Publication of CN103744854A publication Critical patent/CN103744854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:(1)基础准备工作:建立分词库与片段库;建立匹配凭据库;同时建立高效索引引擎;(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理。该专利具有自动化程度高,操作简单易学等优点。

Description

一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台
技术领域
本发明涉及一种地址数据匹配挖掘平台,尤其是一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
背景技术
地址匹配指建立地理位置坐标与给定地址一致性的过程。也是指在地图上找到并标明每条地址所对应的位置。地址匹配要求能够将任何数据移植到空间坐标系中,这个过程包括对数据的准确分类和注册,以及使所有的数据能够与一个空间坐标系建立关联。
这些工作如以人工的方式在地图数据中加以标示的话,将会需要相当的人力物力,而且存在较大的主观因素,不易检查其正确性。如果这些地址资料通过地址匹配功能,和GIS联系则可以很快在地图上标示要素在空间的分布情况,以及周围的公共设施等。因此,地理匹配在城市空间定位和分析领域内具有非常广泛的应用。
中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准。市场上同类产品通常依据地址字符串智能地匹配出地理坐标值。但是地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率很低,匹配准确性差,通常不超过10%,仍需通过大量的人工现场采集来提高匹配的准确率。
发明内容
为解决上述问题,本发明提供了一种自动化程度高,操作简单易学基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
实现本发明目的的一种自动化程度高的基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
本产品采用基于大数据仓储、挖掘的地址匹配技术来进行地址的检索、定位。核心技术包含了元数据仓储、非结构化数据全文检索引擎、要素层级匹配法、正则表达式法以及基于自然语言理解的中文地址匹配法,来建立空间关系地址模型、地址库逻辑模型,实现了地址信息的空间知识表达。
本产品的发明可以大大提高自动匹配的效率,减少以往人工采集地理位置的工作,节约大量人力物力。
附图说明
图1为本发明的总体流程图
具体实施方式
如图1所示,本发明的一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (1)

1.一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,其特征在于:包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作;
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置信息的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核;
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,另一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
CN201310567022.1A 2013-11-15 2013-11-15 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 Pending CN103744854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310567022.1A CN103744854A (zh) 2013-11-15 2013-11-15 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310567022.1A CN103744854A (zh) 2013-11-15 2013-11-15 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台

Publications (1)

Publication Number Publication Date
CN103744854A true CN103744854A (zh) 2014-04-23

Family

ID=50501872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310567022.1A Pending CN103744854A (zh) 2013-11-15 2013-11-15 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台

Country Status (1)

Country Link
CN (1) CN103744854A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281697A (zh) * 2014-10-15 2015-01-14 安徽华贞信息科技有限公司 一种基于语义的大数据分析系统
CN107122415A (zh) * 2017-03-31 2017-09-01 江苏速度信息科技股份有限公司 地名地址库数据融合集成的系统
CN108920256A (zh) * 2018-06-22 2018-11-30 新华三大数据技术有限公司 检核任务执行方法及装置
CN111831867A (zh) * 2020-04-02 2020-10-27 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质
CN111831867B (zh) * 2020-04-02 2024-07-02 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法
CN102288183A (zh) * 2011-06-22 2011-12-21 北京农业信息技术研究中心 用于农村事件上报的地址定位系统及方法
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102339308A (zh) * 2011-09-15 2012-02-01 上海城市地理信息系统发展有限公司 地理信息系统的地址自动分析匹配系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350012A (zh) * 2007-07-18 2009-01-21 北京灵图软件技术有限公司 一种地址匹配的方法和系统
CN101882163A (zh) * 2010-06-30 2010-11-10 中国科学院地理科学与资源研究所 一种基于匹配规则的模糊中文地址地理赋值方法
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法
CN102288183A (zh) * 2011-06-22 2011-12-21 北京农业信息技术研究中心 用于农村事件上报的地址定位系统及方法
CN102291435A (zh) * 2011-07-15 2011-12-21 武汉大学 一种基于地理时空数据的移动信息搜索及知识发现系统
CN102339308A (zh) * 2011-09-15 2012-02-01 上海城市地理信息系统发展有限公司 地理信息系统的地址自动分析匹配系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281697A (zh) * 2014-10-15 2015-01-14 安徽华贞信息科技有限公司 一种基于语义的大数据分析系统
CN107122415A (zh) * 2017-03-31 2017-09-01 江苏速度信息科技股份有限公司 地名地址库数据融合集成的系统
CN108920256A (zh) * 2018-06-22 2018-11-30 新华三大数据技术有限公司 检核任务执行方法及装置
CN111831867A (zh) * 2020-04-02 2020-10-27 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质
CN111831867B (zh) * 2020-04-02 2024-07-02 北京嘀嘀无限科技发展有限公司 地址查询方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106682257B (zh) 施工设施bim构件库构建方法
CN105046328B (zh) 一种三维可视化桥梁病害信息采集管理系统及方法
AU2019226217A1 (en) Configuration of a digital twin for a building or other facility via bim data extraction and asset register mapping
CN113255044A (zh) 基于bim的装配式建筑智能出图方法
CN103914564B (zh) 基于ArcGIS的城市管线更新入库的方法及系统
CN104484790A (zh) 一种物流业务的地址匹配方法及装置
EP2990965B1 (en) Versatile data model
CN104252506A (zh) 同步构建业务模型和数据仓库模型及其映射的方法及系统
CN113010696A (zh) 基于元数据模型的工程领域知识图谱构建方法
US10296626B2 (en) Graph
CN111367911A (zh) 一种场地环境数据分析方法及其系统
CN105045815A (zh) 一种数据采集方法及装置
CN107146026A (zh) 一种空间规划用地差异自动协调方法
CN103744854A (zh) 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台
Searle The Australian site data collation to support the GlobalSoilMap
CN115617889A (zh) 一种基于gis的勘察数据采集与处理方法以及系统
CN105095412A (zh) 一种开放式地质地理信息处理方法及其系统
CN106599241A (zh) 一种gis软件中针对大数据的可视化管理方法
CN106095840A (zh) 一种联合站三维站内管网及设备信息三维展示方法
CN117151659A (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN107085603A (zh) 一种数据处理方法及装置
NO20130838A1 (no) Virtuelt tre
Zhaoguo et al. Traditional village protection based on big data under the impact of covid-19
CN105512270A (zh) 一种确定相关对象的方法和装置
CN115374198A (zh) 城市全域数据的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151019

Address after: 100083, building 1, building 18, Zhongguancun East Road, Beijing, Haidian District, C-305

Applicant after: Beijing is a number of Polytron Technologies Inc

Address before: 100083, building 1, building 18, Zhongguancun East Road, Beijing, Haidian District, C-305

Applicant before: BEIJING CORRECTGRIDS INFORMATION TECHNOLOGY CO., LTD.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140423

RJ01 Rejection of invention patent application after publication