CN103744854A - 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 - Google Patents
一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 Download PDFInfo
- Publication number
- CN103744854A CN103744854A CN201310567022.1A CN201310567022A CN103744854A CN 103744854 A CN103744854 A CN 103744854A CN 201310567022 A CN201310567022 A CN 201310567022A CN 103744854 A CN103744854 A CN 103744854A
- Authority
- CN
- China
- Prior art keywords
- data
- matching
- technology
- address
- check
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:(1)基础准备工作:建立分词库与片段库;建立匹配凭据库;同时建立高效索引引擎;(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作;(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理;(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;(5)终校入库:将完成的作业按照内容不同分别进行入库处理。该专利具有自动化程度高,操作简单易学等优点。
Description
技术领域
本发明涉及一种地址数据匹配挖掘平台,尤其是一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
背景技术
地址匹配指建立地理位置坐标与给定地址一致性的过程。也是指在地图上找到并标明每条地址所对应的位置。地址匹配要求能够将任何数据移植到空间坐标系中,这个过程包括对数据的准确分类和注册,以及使所有的数据能够与一个空间坐标系建立关联。
这些工作如以人工的方式在地图数据中加以标示的话,将会需要相当的人力物力,而且存在较大的主观因素,不易检查其正确性。如果这些地址资料通过地址匹配功能,和GIS联系则可以很快在地图上标示要素在空间的分布情况,以及周围的公共设施等。因此,地理匹配在城市空间定位和分析领域内具有非常广泛的应用。
中国现有的地名、地址体系异常复杂,地名相对混乱、无序,规律性低和缺乏统一的标准。市场上同类产品通常依据地址字符串智能地匹配出地理坐标值。但是地址编码管理器采用的地址模型太过复杂,加上软件功能开发太过简单,在具体应用中地址匹配率很低,匹配准确性差,通常不超过10%,仍需通过大量的人工现场采集来提高匹配的准确率。
发明内容
为解决上述问题,本发明提供了一种自动化程度高,操作简单易学基于大数据仓储、挖掘技术的地址数据匹配挖掘平台。
实现本发明目的的一种自动化程度高的基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
本产品采用基于大数据仓储、挖掘的地址匹配技术来进行地址的检索、定位。核心技术包含了元数据仓储、非结构化数据全文检索引擎、要素层级匹配法、正则表达式法以及基于自然语言理解的中文地址匹配法,来建立空间关系地址模型、地址库逻辑模型,实现了地址信息的空间知识表达。
本产品的发明可以大大提高自动匹配的效率,减少以往人工采集地理位置的工作,节约大量人力物力。
附图说明
图1为本发明的总体流程图
具体实施方式
如图1所示,本发明的一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址数据的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作。
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核。
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误。
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (1)
1.一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台,其特征在于:包括如下步骤:
(1)基础准备工作:建立基于地址门址的、具有空间属性的分词库与片段库;建立基于海量非结构化数据的多层级的匹配凭据库;同时建立基于地理空间信息平台的高效索引引擎;
(2)作业准备:自动完成待匹配门址的接纳、管理、检核等工作,并根据工程进度需要提交作业计划书,将项目任务分解成为满覆盖的作业包;分配好的作业包,将作为匹配作业阶段的最小工作单元而进行下一步的工作;
(3)匹配作业:基于非结构化数据的中文语义解读技术、数据仓储挖掘和地址匹配技术,对数据准备阶段做好的任务包进行加工处理,实现文本地址到地理位置信息的转变;该阶段包括上图作业、人工查误、纠误等一系列作业流程,以先进的技术和严格的管理保证了地址匹配的准确性,在完成作业内容后,匹配结果还将提交检校人员进行审核;
(4)审核校验:完成待审任务包的领取、检查校核、批误、确错等作业,在完成校核工作后提交作业经理进行审核入库或者提交作业人员消除错误;
(5)终校入库:将完成的作业按照内容不同分别进行入库处理,已经确认无误的数据,在入库的同时还将进行反编码,实现本文数据仓库与地理数据的一一对应,另一方面可以把历史匹配结果投放进入匹配凭据库,作为新门址的匹配依据,同时还可以为应用系统的各种查询定位操作做好准备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310567022.1A CN103744854A (zh) | 2013-11-15 | 2013-11-15 | 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310567022.1A CN103744854A (zh) | 2013-11-15 | 2013-11-15 | 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103744854A true CN103744854A (zh) | 2014-04-23 |
Family
ID=50501872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310567022.1A Pending CN103744854A (zh) | 2013-11-15 | 2013-11-15 | 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744854A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析系统 |
CN107122415A (zh) * | 2017-03-31 | 2017-09-01 | 江苏速度信息科技股份有限公司 | 地名地址库数据融合集成的系统 |
CN108920256A (zh) * | 2018-06-22 | 2018-11-30 | 新华三大数据技术有限公司 | 检核任务执行方法及装置 |
CN111831867A (zh) * | 2020-04-02 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 地址查询方法、装置、电子设备和计算机可读存储介质 |
CN111831867B (zh) * | 2020-04-02 | 2024-07-02 | 北京嘀嘀无限科技发展有限公司 | 地址查询方法、装置、电子设备和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102253972A (zh) * | 2011-06-14 | 2011-11-23 | 南京师范大学 | 基于网络爬虫的地名数据库维护方法 |
CN102288183A (zh) * | 2011-06-22 | 2011-12-21 | 北京农业信息技术研究中心 | 用于农村事件上报的地址定位系统及方法 |
CN102291435A (zh) * | 2011-07-15 | 2011-12-21 | 武汉大学 | 一种基于地理时空数据的移动信息搜索及知识发现系统 |
CN102339308A (zh) * | 2011-09-15 | 2012-02-01 | 上海城市地理信息系统发展有限公司 | 地理信息系统的地址自动分析匹配系统 |
-
2013
- 2013-11-15 CN CN201310567022.1A patent/CN103744854A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350012A (zh) * | 2007-07-18 | 2009-01-21 | 北京灵图软件技术有限公司 | 一种地址匹配的方法和系统 |
CN101882163A (zh) * | 2010-06-30 | 2010-11-10 | 中国科学院地理科学与资源研究所 | 一种基于匹配规则的模糊中文地址地理赋值方法 |
CN102253972A (zh) * | 2011-06-14 | 2011-11-23 | 南京师范大学 | 基于网络爬虫的地名数据库维护方法 |
CN102288183A (zh) * | 2011-06-22 | 2011-12-21 | 北京农业信息技术研究中心 | 用于农村事件上报的地址定位系统及方法 |
CN102291435A (zh) * | 2011-07-15 | 2011-12-21 | 武汉大学 | 一种基于地理时空数据的移动信息搜索及知识发现系统 |
CN102339308A (zh) * | 2011-09-15 | 2012-02-01 | 上海城市地理信息系统发展有限公司 | 地理信息系统的地址自动分析匹配系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析系统 |
CN107122415A (zh) * | 2017-03-31 | 2017-09-01 | 江苏速度信息科技股份有限公司 | 地名地址库数据融合集成的系统 |
CN108920256A (zh) * | 2018-06-22 | 2018-11-30 | 新华三大数据技术有限公司 | 检核任务执行方法及装置 |
CN111831867A (zh) * | 2020-04-02 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 地址查询方法、装置、电子设备和计算机可读存储介质 |
CN111831867B (zh) * | 2020-04-02 | 2024-07-02 | 北京嘀嘀无限科技发展有限公司 | 地址查询方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682257B (zh) | 施工设施bim构件库构建方法 | |
CN105046328B (zh) | 一种三维可视化桥梁病害信息采集管理系统及方法 | |
AU2019226217A1 (en) | Configuration of a digital twin for a building or other facility via bim data extraction and asset register mapping | |
CN113255044A (zh) | 基于bim的装配式建筑智能出图方法 | |
CN103914564B (zh) | 基于ArcGIS的城市管线更新入库的方法及系统 | |
CN104484790A (zh) | 一种物流业务的地址匹配方法及装置 | |
EP2990965B1 (en) | Versatile data model | |
CN104252506A (zh) | 同步构建业务模型和数据仓库模型及其映射的方法及系统 | |
CN113010696A (zh) | 基于元数据模型的工程领域知识图谱构建方法 | |
US10296626B2 (en) | Graph | |
CN111367911A (zh) | 一种场地环境数据分析方法及其系统 | |
CN105045815A (zh) | 一种数据采集方法及装置 | |
CN107146026A (zh) | 一种空间规划用地差异自动协调方法 | |
CN103744854A (zh) | 一种基于大数据仓储、挖掘技术的地址数据匹配挖掘平台 | |
Searle | The Australian site data collation to support the GlobalSoilMap | |
CN115617889A (zh) | 一种基于gis的勘察数据采集与处理方法以及系统 | |
CN105095412A (zh) | 一种开放式地质地理信息处理方法及其系统 | |
CN106599241A (zh) | 一种gis软件中针对大数据的可视化管理方法 | |
CN106095840A (zh) | 一种联合站三维站内管网及设备信息三维展示方法 | |
CN117151659A (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
CN107085603A (zh) | 一种数据处理方法及装置 | |
NO20130838A1 (no) | Virtuelt tre | |
Zhaoguo et al. | Traditional village protection based on big data under the impact of covid-19 | |
CN105512270A (zh) | 一种确定相关对象的方法和装置 | |
CN115374198A (zh) | 城市全域数据的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20151019 Address after: 100083, building 1, building 18, Zhongguancun East Road, Beijing, Haidian District, C-305 Applicant after: Beijing is a number of Polytron Technologies Inc Address before: 100083, building 1, building 18, Zhongguancun East Road, Beijing, Haidian District, C-305 Applicant before: BEIJING CORRECTGRIDS INFORMATION TECHNOLOGY CO., LTD. |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140423 |
|
RJ01 | Rejection of invention patent application after publication |