地名地址库数据融合集成的系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种地名地址库数据融合集成的系统。
背景技术
随着中国经济的高速稳定的发展,随着城市化进程的加快,以及市区建设力度的加大,目前的地名变化很大,目前每年的新生地名大约在2万条以上,而有的地名命名很不规范,如包含生僻字、异体字等,或存在名不符实的现象,特别是有的建筑物、道路等还存在长期未命名的情况,这样在管理上存在很多困扰,无法做到有效的管理,同时不利于用户查询。
地名地址数据是最常用的社会公共信息资源,与大众的日常生活紧密相关,同时,地名地址信息也是政府基础行政管理的基础资源。将地名地址信息提取并标准化,使其转化为地理信息服务的基础成果,为大众的生产生活提供支撑,已成为一项迫切的需要。
现有的地理位置信息挖掘算法主要是利用关键字匹配的方法,由于在互联网环境下文本中的地名地址信息存在描述错误、不准确、同音字、不够标准等问题,所以基于关键字匹配的位置信息挖据算法准确率较低,不足以满足各行各业对地理信息的要求。
现有的地名地址库中的数据如果是同一数据源,但是也存在字段语义与标准规范不一致、字段文本缺乏统一标准、字段文本与地名地址全称不匹配等问题,如果是不同数据源,还会存在空间语义的权威性不同;单纯从地名地址文本角度无法处理的情况:地名地址文本相同,地址节路径不一致;不同地址路径具有相同空间语义。
因此,现在有必要开发一种能够通过对地名地址进行规则定义、文法分析、智能分词等多种处理方式,使地名地址库建设更加高效、准确、智能的地名地址库数据融合集成系统。
发明内容
本发明要解决的技术问题是,提供一种能够通过对地名地址进行规则定义、文法分析、智能分词等多种处理方式,使地名地址库建设更加高效、准确、智能的地名地址库数据融合集成系统。
为了解决上述技术问题,本发明采用的技术方案是:地名地址库数据融合集成系统包括支撑层、数据层、服务层和应用层;所述支撑层为该地名地址库数据融合集成的系统提供管理服务,所述支撑层包括ArcGIS服务、GP服务、Rest服务、ESB服务、统一用户管理、统一权限管理、统一服务管理和统一流程管理;所述数据层是由数据成果库构建的地名地址检索库;所述服务层为所述数据层提供数据对比、数据分析和数据处理服务,同时设有服务交换接口,将数据层的数据与服务层共享;所述应用层包括数据整合功能和数据比对功能。
本发明进一步改进在于,所述数据层构建地名地址检索库包括以下步骤:
(1)建立数据成果库:将标注的基础地名地址样本数据库的数据进行数据比对并整合分析,得到数据成果并建立数据成果库;
(2)将数据成果库建成地名地址检索库:首先对数据成果库进行构建地址树,再将地址树与地名检索服务建立连接,从而形成地名地址检索库。
本发明进一步改进在于,所述应用层的数据整合功能包括数据提取、数据补充、数据分类、POI维护、数据查询、数据导出、数据匹配和批量导入;数据比对功能包括数据比对、坐标校验、数据匹配、成果入库和数据审核。
本发明进一步改进在于,所述服务交换接口包括地名地址检索服务和地址交换共享服务。
本发明进一步改进在于,所述步骤(1)中还包括建立预处理库,先将数据成果批量处理输入预处理库,再对预处理库的数据进行审核入库后构建成数据成果库。
本发明进一步改进在于,所述标注的基础地名地址样本数据包括:住建数据、国土数据、公安数据、民政数据和基础地理信息数据;将数据进行整合分析的步骤是:
1)将基础地理信息数据输入数据成果库;
2)对住建数据进行预处理,将住建数据中的规则数据和不规则数据进行分类,规则数据则直接输入数据成果库;不规则的数据则与国土数据和公安数据一起进行匹配数据后输入数据成果库。
本发明进一步改进在于,所述步骤(1)中的对基础地名地址样本数据库的数据进行比对并整合分析的步骤包括:
A)第一轮比对导入表:将原始数据表按照比对表的格式导入比对表中,然后查询服务(Query)比对,将各地址节利用查询服务,进行比对,如果比对成功则将比对效果设置为1,否则设置成0;
B)第一轮未匹配分析:针对第一轮未匹配的分析未匹配的原因,并整理,然后使用解析服务方案进行比对;
C)第二轮地址节拼接成地址全称:先将各地址节拼接成地址全称,然后进行解析服务(Resolve)比对,针对地址全称进行解析和比对,比对成功,则比对效果设置为1,否则设置为0;
D)第二轮未匹配分析:针对第二轮未匹配的分析未匹配的原因,并提出解决策略;针对问题进行修改,再次进行解析服务(Resolve)比对,针对解析比对结果进行分析,对未匹配的数据进行分析后继续循环本步骤。
本发明进一步改进在于,所述步骤(1)中数据比对和所述应用层中的数据比对功能均采用的是地名地址分词算法和地名地址解析算法;地名地址分词算法采用综合地名地址辞典(Gazetteer)与地名地址关键词的方法;地名地址解析算法在分词的基础上,通过地址路径搜索与地址节文本冗余相结合的方法。地名地址分词算法采用综合地名地址辞典(Gazetteer)与地名地址关键词的方法实现精确识别与模糊匹配的平衡;地名地址解析算法在分词的基础上,通过地址路径搜索与地址节文本冗余相结合的方法,实现面向行业应用与面向公众服务的不同检索服务应用场景。
本发明进一步改进在于,该地名地址库数据融合集成的系统包括GPS定位模块、存储模块、网络模块、无线模块和电源模块;所述无线模块包括蓝牙模块与WIFI模块,所述GPS定位模块、存储模块、网络模块、无线模块和电源模块均与控制模块相连接;所述GPS定位模块用于所处位置定位捕捉,所述存储模块用于信息的存储,所述网络模块用于网络连接,所述无线模块用于与外部设备无线连接,所述电源模块用于提供地名地址库数据融合集成的系统的电源。
与现有技术相比,本发明具有的有益效果是:
1)基于地名地址库基础设置规范按编码规则分“四级九表”方式设置,规则设置灵活;2)兼容多种数据源;3)数据匹配高效、准确;4)提供多维度查询服务;5)吞吐量大支持海量地名地址库建设;6)基于SOA系统架构,扩展性强。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的地名地址库数据融合集成的系统结构图;
图2是本发明的地名地址库数据融合集成的系统的通用地名地址基础规范模型图;
图3是本发明的地名地址库数据融合集成的系统的硬件结构图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,地名地址库数据融合集成系统包括支撑层、数据层、服务层和应用层;所述支撑层为该地名地址库数据融合集成的系统提供管理服务,所述支撑层包括ArcGIS服务、GP服务、Rest服务、ESB服务、统一用户管理、统一权限管理、统一服务管理和统一流程管理;所述数据层是由数据成果库构建的地名地址检索库;所述服务层为所述数据层提供数据对比、数据分析和数据处理服务,同时设有服务交换接口,将数据层的数据与服务层共享;所述应用层包括数据整合功能和数据比对功能;
所述数据层构建地名地址检索库包括以下步骤:
(1)建立数据成果库:将标注的基础地名地址样本数据库的数据进行数据比对并整合分析,得到数据成果并建立数据成果库;
(2)将数据成果库建成地名地址检索库:首先对数据成果库进行构建地址树,再将地址树与地名检索服务建立连接,从而形成地名地址检索库;所述应用层的数据整合功能包括数据提取、数据补充、数据分类、POI维护、数据查询、数据导出、数据匹配和批量导入;数据比对功能包括数据比对、坐标校验、数据匹配、成果入库和数据审核;所述服务交换接口包括地名地址检索服务和地址交换共享服务;
所述步骤(1)中还包括建立预处理库,先将数据成果批量处理输入预处理库,再对预处理库的数据进行审核入库后构建成数据成果库;所述标注的基础地名地址样本数据包括:住建数据、国土数据、公安数据、民政数据和基础地理信息数据;将数据进行整合分析的步骤是:
1)将基础地理信息数据输入数据成果库;
2)对住建数据进行预处理,将住建数据中的规则数据和不规则数据进行分类,规则数据则直接输入数据成果库;不规则的数据则与国土数据和公安数据一起进行匹配数据后输入数据成果库;所述步骤(1)中的对基础地名地址样本数据库的数据进行比对的步骤包括:
A)第一轮比对导入表:将原始数据表按照比对表的格式导入比对表中,然后查询服务(Query)比对,将各地址节利用查询服务,进行比对,如果比对成功则将比对效果设置为1,否则设置成0;
B)第一轮未匹配分析:针对第一轮未匹配的分析未匹配的原因,并整理,然后使用解析服务方案进行比对;
C)第二轮地址节拼接成地址全称:先将各地址节拼接成地址全称,然后进行解析服务(Resolve)比对,针对地址全称进行解析和比对,比对成功,则比对效果设置为1,否则设置为0;
D)第二轮未匹配分析:针对第二轮未匹配的分析未匹配的原因,并提出解决策略;针对问题进行修改,再次进行解析服务(Resolve)比对,针对解析比对结果进行分析,对未匹配的数据进行分析后继续循环本步骤;所述步骤(1)中数据比对和所述应用层中的数据比对功能均采用的是地名地址分词算法和地名地址解析算法;地名地址分词算法采用综合地名地址辞典(Gazetteer)与地名地址关键词的方法;地名地址解析算法在分词的基础上,通过地址路径搜索与地址节文本冗余相结合的方法;
其中,基于J2EE与MongoDB的地名地址检索服务分三层,第一层包括地名地址整合编辑工具集,地名地址管理发布工具集和地名地址检索服务示范应用;第二为J2EE包括地名地址检索示范应用服务,地名地址整合编辑服务,地名地址检索服务,地名地址管理发布服务;第三层包括MongoDB数据库和Oracle数据库;所述MongoDB数据库为统一标准地名地址库,所述Oracle数据库包括地名地址提交库、地名地址发布库、地名地址预处理库和地名地址成果库。
该地名地址库数据融合集成的系统包括GPS定位模块、存储模块、网络模块、无线模块和电源模块;所述无线模块包括蓝牙模块与WIFI模块,所述GPS定位模块、存储模块、网络模块、无线模块和电源模块均与控制模块相连接;所述GPS定位模块用于所处位置定位捕捉,所述存储模块用于信息的存储,所述网络模块用于网络连接,所述无线模块用于与外部设备无线连接,所述电源模块用于提供地名地址库数据融合集成的系统的电源。
该地名地址库数据融合集成的系统还建立了地名地址规范建设标准以及数据安全保密体系,建立地名地址库建设规范,包括制定标准地名地址数据结构、地址编码规则、地址数据空间层次结构,规范地址服务调用方式、地址数据交换格式、地址服务接口内容;通过地名地址数据整合工具对地名地址数据进行批量数据整合、预处理数据编辑、成果审核、地址数据发布。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。