CN114969188A - 一种流域边缘端多源异构生态环境大数据集成方法及系统 - Google Patents
一种流域边缘端多源异构生态环境大数据集成方法及系统 Download PDFInfo
- Publication number
- CN114969188A CN114969188A CN202210634251.XA CN202210634251A CN114969188A CN 114969188 A CN114969188 A CN 114969188A CN 202210634251 A CN202210634251 A CN 202210634251A CN 114969188 A CN114969188 A CN 114969188A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- edge
- heterogeneous
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y20/00—Information sensed or collected by the things
- G16Y20/10—Information sensed or collected by the things relating to the environment, e.g. temperature; relating to location
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/10—Detection; Monitoring
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y40/00—IoT characterised by the purpose of the information processing
- G16Y40/20—Analytics; Diagnosis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Toxicology (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种流域边缘端多源异构生态环境大数据集成方法及系统,涉及数据集成技术领域,包括以下步骤:数据获取步骤:获取边缘端各个边缘节点的数据;边缘节点数据库建立步骤:将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;数据库交互步骤:将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;异构结构数据源集成步骤:将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。本发明实现了数据的智慧感知、自动识别与网络融合,推进了多源异构数据协同共享。
Description
技术领域
本发明涉及数据集成技术领域,尤其涉及一种流域边缘端多源异构生态环境大数据集成方法及系统。
背景技术
基于云的数据管理为大数据时代的发展提供了支持,国内外许多学者开展了关于生态环境大数据技术的研究,生态环境大数据也在不断建设当中,在快速、高效分析、提取和利用实时产生、类型多样的环境大数据时,充满了挑战,在数据存储及传输等方面存在压力大、时延高等问题。
西班牙维尔瓦大学Cravero等(2018)提出了一种水资源管理大数据体系架构,并针对近年来水资源管理中普遍使用大数据的问题,分析相应特点,提出了几种解决方案。澳大利亚科廷大学Nimmagadda等(2017)建立了岩石圈-大气-生物圈-水圈复合生态系统(LABHE)的数据模型来描述自然界的循环系统,利用非结构化大环境数据源及其在自然界中存在的异常描述各种构造、计算模型,并集成到仓库方法中,以计算环境元数据并在不同的知识域中对其进行解释,指出大数据模型和综合框架有助于环境探索者规划和管理全球环境资源。悉尼大学Yu等(2012)利用矩阵估计算法解释并跟踪用户的查询脚本,从不同来源检索数据,并将它们集成到矩阵估计中,用于集群并行计算。
我国学者张万顺、王永桂等(2016)基于环境大数据的数据特点和不同层次的组织管理特征,构建了满足各级管理部门需求,高效利用环境大数据的数据中心。谢超颖等(2018)对清潩河流域尺度多目标多部门水环境数据库构建的关键技术进行研究,发展了包括数据库规范设计、要素编码设计、图层及属性表设计、多目标数据库索引设计等技术在内的多源海量异构的多部门数据整合技术,多部门矢量数据与栅格数据无缝拼接技术及一键入库技术等。熊丽君等(2019)对大数据技术在生态环境领域的应用作了综合分析,指出中国仍处于起步阶段,应有效集成多领域生态环境监测数据,提升数据处理技术能力,推进大数据应用。张毅等(2019)、刘丽香等(2017)指出生态环境大数据将有助于全面提高生态环境治理的综合决策水平,但在数据共享和开放、应用创新、数据管理、技术创新和落地、专业人才培养和资金投入等方面还面临着重重挑战,提出了生态环境大数据未来的发展应向各类生态环境数据的标准化、建设生态环境大数据存储与处理分析平台和推动国内外生态环境大数据平台的对接等方向发展。传统的云数据存储及传输存在压力大、时延高等问题。
因此,提出一种流域边缘端多源异构生态环境大数据集成方法及系统,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种流域边缘端多源异构生态环境大数据集成方法及系统,实现了数据的智慧感知、自动识别与网络融合,推进了多源异构数据协同共享。
为了实现上述目的,本发明采用如下技术方案:
一种流域边缘端多源异构生态环境大数据集成方法,包括以下步骤:
S101.数据获取步骤:获取边缘端各个边缘节点的数据;
S201.边缘节点数据库建立步骤:将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
S301.数据库交互步骤:将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
S401.异构结构数据源集成步骤:将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
可选的,S101中边缘端各个节点包括但不限于气象、水利、生态环境、自然资源、流域机构和科研机构。
可选的,S201中构建的各个边缘节点对应的数据库包括但不限于水文数据库、水质数据库和水环境检测数据库,最终构建了水环境及水文边缘端综合数据库。
可选的,S301中水环境及水文边缘端综合数据库的混合式交换架构为集中式交换架构和分布式交换架构的结合,其存储方式为分布式云存储架构。
可选的,S401异构数据集成包括以下内容:
建立通用数据库引擎GDBE处理异构数据的异构问题,包括和直接访问数据库一致的接口,用户以透明的方式访问并检索相关数据源中的数据,实现异构数据源间的数据迁移;
建立数据交换中间件DEM,基于通用数据库引擎GDBE进行数据从源数据库到目的数据库的导入交换。
可选的,数据交换中间件DEM基于各种数据库中数据类型的特点,先进行关系模式信息提取,建立关系型数据库以及关系型数据与系统数据间的转换映射,然后进行关系模式转换。
可选的,各种数据源间的数据类型映射关系,在数据交换DEM中间件中采用了数据库存储的方式保存,可动态增删修改,当有新的数据库类型被加入时只需通过DEM提供的数据类型转换映射维护界面,即可建立新的转换映射关系。
可选的,S401中对异构数据集成中的列存储的数据进行列组合,并转换为行存储数据,导入水环境及水文边缘端综合数据库,同时针对异构数据的多样性采取配置表技术实现该转换的通用性。
一种流域边缘端多源异构生态环境大数据集成系统,应用上述的流域边缘端多源异构生态环境大数据集成方法,包括依次连接的数据获取模块、边缘节点数据库建立模块、数据库交互模块、异构结构数据源集成模块;
数据获取模块用于获取边缘端各个边缘节点的数据;
边缘节点数据库建立模块用于将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
数据库交互模块用于将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
异构结构数据源集成模块用于将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种流域边缘端多源异构生态环境大数据集成方法及系统:采用了数字流域边缘端生态环境多源异构数据的融合、集成方法,将零散的终端采集数据在边缘端按照统一标准格式转换并集成至综合数据库,不再需要将数据传输到云中心进行处理和分析,有效地减少了90%的数据量;采用聚合传输方式,降低了网络传输协议带来的额外开销和实际传输耗时;数据经过预处理与聚合,大大减轻了网络和服务器上的负载;实现了数据的智慧感知、自动识别与网络融合,推进了多源异构数据协同共享。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种流域边缘端多源异构生态环境大数据集成方法流程图;
图2为本发明提供的边缘端综合数据库交换架构图;
图3为本发明提供的分布式云存储架构图;
图4为本发明提供的GDBE工作原理图;
图5为本发明提供的数据交换中间件DEM工作原理图;
图6为本发明提供的数据类型映射关系模型图;
图7为本发明提供的基于行列转换方案的转换过程图;
图8为本发明提供的行列转置数据抽取流程图;
图9为本发明提供的安全技术和应用框架图;
图10为本发明提供的一种流域边缘端多源异构生态环境大数据集成系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明公开了一种流域边缘端多源异构生态环境大数据集成方法,包括以下步骤:
S101.数据获取步骤:获取边缘端各个边缘节点的数据;
S201.边缘节点数据库建立步骤:将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
S301.数据库交互步骤:将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
S401.异构结构数据源集成步骤:将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
进一步的,S101中边缘端各个节点包括但不限于气象、水利、生态环境、自然资源、流域机构和科研机构。
数据源还包括:人工监测、视屏录像、自动监测数据和遥感影像数据获取的不同格式的数据形式。
而对于不同部门数据涉及时间尺度的问题,因为数据对应的下游端是模型,模型计算时按秒及以下。这就需要对各种数据进行插补,目前我们采用自动插补。
当前水文数据是小时和天,气象数据间隔是分,小时,天。而水质数据多为月,也有天。
自动插补实现方式如下:
进一步的,S201中构建的各个边缘节点对应的数据库包括但不限于水文数据库、水质数据库和水环境检测数据库,最终构建了水环境及水文边缘端综合数据库。
具体的,统一数据集成标准具体包括:
1)确定了边缘端水环境综合数据库的结构定义标准、表定义标准、字段定义标准和一般规定;
2)确定了边缘端水文数据库结构标准;
3)确定了边缘端水质数据库结构标准;
4)确定了边缘端水生生物监测信息结构标准;
5)确定了边缘端入河排污污染信息数据库结构标准;
6)确定了边缘端地表水环境自动和手动数据库结构标准;
7)确定了边缘端应急监测数据库结构标准;
8)确定了边缘端水污染调查信息数据库结构标准;
9)确定了边缘端城镇生活污水调查信息数据库结构标准;
10)确定了边缘端气象数据库结构标准。
更进一步的,S301中水环境及水文边缘端综合数据库的混合式交换架构为集中式交换架构和分布式交换架构的结合,其存储方式为分布式云存储架构。
由于水环境监测数据是不共享的,而“水文及水质综合数据库”是各水环境各部门所共享的,若各分布式水环境监测数据共享后水环境及水文综合数据库便形成了集中分布相结合的态势,水环境及水文综合数据库是水环境部门间的数据交换中心结点,部门之间的交换基于Web Service技术,如图2 所示。
为了将水文及水环境综合数据库SQL server进行分布式存储,部署了基于云的Gluster分布式存储系统,具体参见图3所示:
首先在存储节点上启动ISCSI target服务来导出部署的存储系统,再在 SQLserver服务器上使用ISCSI(连接到一个TCP/IP网络的直接寻址的存储库)发起程序,链接ISCSI target服务,生成新的网络磁盘设备,连接成功后生成新的磁盘设备;最后使用SQLserver创建数据库,将数据库文件存储位置设置在生成的盘中或附加已有的数据库到前面生成的盘中。该关键技术的难点在于部署分布式存储系统环境,启动ISCSI target服务和链接ISCSI target 服务来生成网络磁盘设备。
当SQL server等数据库使用本地磁盘或磁盘阵列作为数据库文件的存储时,存在容量扩展、数据安全性、可用性等问题。即使通过多个磁盘设置RAID1 的方式,提高了一定的安全性,但是随着数据的增加,数据库容量的扩展会成为一个棘手的问题。
通过部署分布式存储系统作为SQL server的文件存储时,可以很好的解决存储容量扩展的问题,并且在单个存储节点故障时,存储系统能持续工作,保证数据不丢失,提供了数据库的安全性和可用性。进一步当SQL server部署故障转移集群实例时,即使在单个数据库服务节点故障时,整个数据库集群还能提供服务,并且通过使用分布式存储,提高了故障恢复的速度。
进一步的,S401异构数据集成包括以下内容:
建立通用数据库引擎GDBE处理异构数据的异构问题,包括和直接访问数据库一致的接口,用户以透明的方式访问并检索相关数据源中的数据,实现异构数据源间的数据迁移;
具体的,从边缘端综合数据库现状分析来看,一方面集成数据的存储方式具有多样性,有的采用关系数据库存储(Oracle或SQL Server或DBF)、有的采用文件数据库存储(Excel文件);另一方面各个数据库中表结构也不统一,同一指标的字段名称、类型、长度各不一致,数据格式转换需提供开放和易于扩展的异构数据集成能力,需要有效解决不同格式数据资源的综合利用问题。通过设计通用数据库引擎(General Data Base Engine,GDBE)中间件来解决上述异构问题。
为了解决通过接口访问数据的问题,GDBE提供了和直接访问数据库一致的接口,这样一来对用户而言只需配置好GDBE的访问参数,如数据库类型、服务器地址、访问账户等信息,就可以以透明方式访问并检索相关数据源中的数据。图4说明了GDBE以统一的接口访问多种异构数据源的工作原理:
通用数据引擎(GDBE)有三个访问接口,使用GDBE时先按照数据源连接参数产生数据源对象;然后将该对象传递给GDBE的连接接口,由GDBE 连接到指定数据源;连接成功后可以通过GDBE的另外两个接口从数据源中查询数据或执行SQL语句命令(仅限关心型数据源)。通过提供统一的访问接口,GDBE屏蔽了异构数据源的差异,实现了多源数据集成访问,用户可以透明的访问数据。另外,由于GDBE可以是Web Service的远程数据源,也解决了分布式的远程数据集成问题。
建立数据交换中间件DEM,基于通用数据库引擎GDBE进行数据从源数据库到目的数据库的导入交换。
更进一步的,数据交换中间件DEM基于各种数据库中数据类型的特点,先进行关系模式信息提取,建立关系型数据库以及关系型数据与系统数据间的转换映射,然后进行关系模式转换。
更进一步的,各种数据源间的数据类型映射关系,在数据交换DEM中间件中采用了数据库存储的方式保存,可动态增删修改,当有新的数据库类型被加入时只需通过DEM提供的数据类型转换映射维护界面,即可建立新的转换映射关系。
具体的,GDBE为异构数据源间的数据迁移提供了可能性,数据交换中间件基于GDBE可以完成数据从源数据库到目的数据库的导入交换。数据交换中间件通过同时创建两个GDBE对象,连接两个异构数据源,通过源GDBE 的查询接口从源数据库中读取需要交换的数据,然后再通过目的GDBE的命令接口将数据写入目的数据库,完成数据交换。数据交换中间件DEM(Data Exchange Middleware)的工作原理如图5所示。数据交换中间件只需通过源和目的两个GDBE的查询和命令接口,借助各个数据库的结构查询语句来完成。各数据库的结构检索语句或命令各有不同,这些不同均被封装到DEM中间件,对用户来说是透明的。
1)数据类型转换机制
数据交换中间件(DEM)的核心功能是实现ORACLE、SQL SERVER、 DBASE、EXCEL等不同类型数据库之间数据的自动转换,为此需要解决数据存储格式差异的问题,使指定数据库与其它数据库的格式定义达成共识,在指定数据库与其它数据库之间建立映射模型。
目前广泛使用的数据库主要包括SQL Server、Oracle、DBase、MySql、 FoxPro以及EXCEL文件。这些数据库的数据类型从命名、表示范围、种类等都有差别。数据类型个数、数据类型定义和精度不尽相同,在转换的过程中要想得到全面解决是困难的。针对各种数据库中数据类型的特点,首先进行关系模式信息提取,然后进行关系模式的转换。
由于文件型数据库缺乏关系模式的提取机制,对这类数据只能从查询得到的数据缓存(如Data Table)结构进行分析,数据缓存的结构是系统相关的,其称为系统数据类型。因此要实现各种主流数据库间的类型转换工作,需要建立关系型数据库之间以及关系型数据与系统数据间的转换映射,如图6所示,此处以SQL Server、Oracle作为关系数据库的代表。
各种数据源间的数据类型映射关系,在数据交换DEM中间件中采用了数据库存储的方式保存,可动态增删修改,当有新的数据库类型被加入时只需通过DEM提供的数据类型转换映射维护界面,即可建立新的转换映射关系,具有很好的灵活性。
2)基于数据目录的数据管理模式
为了使数据集成系统的使用更加方便快捷,为用户提供统一的交互接口,水环境数据共享平台采用数据目录的方式管理各种数据源,数据目录包括数据源注册目录、数据表注册目录和数据字段注册目录。
3)大数据的分批导入
在水环境的实际业务应用中有的数据库积累了大量的历史数据,当对这类数据执行数据交换时经常会出现内存溢出的问题。针对这个问题,数据交换DEM中间件提供了分批多次连续执行的交换方式。在分批交换的方案中用户可以指定每次交换的数据量,然后DEM会根据不同的数据源类型,修改查询的SQL语句,让GDBE根据某个索引按序分批从源数据库中读取数据并分批写入目的数据库。分批查询的SQL语句由数据交换中间件DEM自动生成,对用户透明。
4)可重复使用的数据交换方案
数据交换DEM中间件在执行数据交换时会将数据交换的各种参数、配置记录形成数据交换方案对象保存在内存中,如有需要也可以将该数据交换对象转换为数据存储,供以后重复使用需要。
进一步的,S401中对异构数据集成中的列存储的数据进行列组合,并转换为行存储数据,导入水环境及水文边缘端综合数据库,同时针对异构数据的多样性采取配置表技术实现该转换的通用性。
具体的,列存储向行存储的转换设计与实现
边缘端综合数据库包括各个监测点采集的水文、水质、环境监测等指标数据,这些数据的存储方式具有多样性,水文数据存于Oracle;水质数据存于SQL Server;监测数据存于DBF或Excel,其存储形式也是多种多样,主要表现是数据表结构不统一,除了字段构成、类型、长度等问题外,最主要的问题是有的数据指标采用了按列存储(即一个数据指标占一个数据列,通过站码、时间、列名唯一确定一个指标值)的方式,而综合数据库以及水文数据库、水质数据库的指标数据均采用按行存储(即一个数据指标占一个数据行,通过站码、时间、指标代码唯一确定一个指标值)的方式。
关键难点研究在于对异构数据集成中的列存储的数据进行列组合,并转换为行存储数据,导入综合数据库,同时针对异构数据的多样性采取配置表技术实现该转换的通用性,从而研究成实用的通用工具。
1)参见图7为基于行列转换方案的转换过程示意图,存储转换较为复杂并要实现转换的通用性,采用了行列转换方案的思想。源表S中包括非转换列(非转换列1和非转换列2),非转换列在源表中有重复值,列关键字字段和列值字段是待转换字段。行转换方案中包括非转换列映射和列关键字字段映射,非转换列映射中源表中的非转换列1和非转换列2分别对应目的表中的列a和列b;列关键字字段映射表中列关键字字段中的字段名1和字段名2分别映射到目的表中的列x和列y。目的表中的列a的字段内容对应源表中的列1值1和列1值2,目的表中的列b的字段内容对应源表中的列2值1和列 2值2,目的表中的列x的字段内容对应源表中的列值1和列值3,目的表中的列y的字段内容对应源表中的列值2和列值4。如下所实现的转换流程和转换算法正是基于如上所述的映射过程。
2)构建行列转置配置表
为了实现通用的不同的源表S到目的表D的从按行存储到按列存储的数据转换,采用了映射表的方法,由列行转换映射表定义数据转换适用的对象及对象间进行列行转换时行与列的映射关系。列行转换映射表由两种数据结构组成,一种数据结构定义列行转换适用的对象,另一种数据结构描述适用对象间列行转换的行与列映射关系。
由于数据源与目的数据库之间的数据转换主要通过表映射表和字段映射表来实现,映射表中包含了源数据表字段与目标数据表字段间的映射关系。而不同数据源中不同表的导入则通过制定导入方案来实现,导入方案中记录了数据表映射和字段映射,同一数据源的导入只需要进行一次导入方案的设置。对于像Excel类型数据源和DBase数据源这种非注册数据源,同一文件名对象的字段映射只需要进行一次设置,之后就会默认上一次设定的字段映射,对于字段相同的数据表,用户只用创建一次导入方案,之后改变表名即可,具有较好的通用性。
3)行列转置数据抽取流程
基于配置表的列行转置数据抽取流程如图8所示。
其中第1步选择/设置源数据库,配置连接参数,完成源数据库的连接;第2步选择/设置目的数据库,配置连接参数,完成目的数据库的连接;第3 步列出源数据库中的所有数据表,从中选择待抽取源表以及将导入的目的表(从目的数据库中选择),如果目的表具有适用列行转置配置方案,则可以选择配置方案。如选择了列行转置配置方案,则执行列行转置数据抽取流程,否则执行普通数据抽取流程。第4步配置列行转置抽取导入所需参数:①为目的表唯一标识一行的字段列表中各字段设置相应的导入源字段;②为源表设置行列转换关键字字段;③为源表设置列行转换列值字段。
4)行列转置算法
创建了列行转置配置表后就可以开始进行数据的抽取,基于列行转置数据抽取流程实现的算法如下:
①读取源数据库DBS中源数据表S的所有被抽取数据行集合(R);
②读取目的数据库DBD中目的数据表D的列行转置配置表数据;
③从配置表中读取row_id_fields数据项(目的表D中唯一标识一行的字段列表),设为(F1,F2,F3,…),其中F1∈D,F2∈D,F3∈D,…;
④从配置表中读取列行转置映射关系集合M;
⑤读取目的表D唯一标识一行的字段列表中各字段相应的导入源字段 (在抽取流程中设置),设为(X1→F1,X2→F2,X3→F3,…),其中X1 ∈S,X2∈S,X3∈S,…;
⑥读取源表S中列行转换关键字字段K、列值字段V(均在抽取流程中设置),其中K∈S,V∈S;
⑦初始化变量i=1,对第i行被抽取数据行R[i]执行:
I.在映射关系集合M中查找convert_keyword等于R[i].K.Value的对应 convert_to_column,设结果为F,其中F∈D,K.Value表示被抽取数据行R[i] 的K列的数据值,根据此值确定数据行R[i]的V列的数据值(行数据)转置到目的表D中的F列;
II.在目的数据库DBD中执行查询(select *fromDwhereF1=R[i].X1.ValueandF2=R[i].X2.ValueandF3=R[i].X3.Valueand…) ,即:从表D中选取F1=R[i].X1.Value并且F2=R[i].X2.Value并且 F3=R[i].X3.Value…并且Fn=R[i].Xn.Value的数据,其中X1.Value表示被抽取数据行的X1列的数据值,依此类推;
III.如果II的查询查询结果为空,则执行IV,否则V;
IV.在目的数据库DBD的数据表D中执行插入新数据行语句: (InsertintoD(F1,F2,F3,…,F)values(R[i].X1.Value,R[i].X2.Value, R[i].X3.Value,…,R[i].V.Value)),;
V在目的数据库DBD的数据表D中执行更新数据行语句: (UpdateDsetF=R[i].V.ValuewhereF1=R[i].X1.ValueandF2=R[i].X2.ValueandF3 =R[i].X3.Valueand…);
VI.i=i+1,如果i小于等于集合R的最大行数,则转I,否则转⑧。
⑧结束
该算法在实现时需要设置导入表S和目的表D中对应列的映射关系,原理如下:
首先在输出列中选择目的表D唯一标识一行的字段(即非转换列)所对应的导入源字段,得到列映射列表:(X1→F1,X2→F2,X3→F3,…),其中X1∈S,X2∈S,X3∈S,…;(F1,F2,F3,…)为列行转置配置表中所勾选的非转换列;选择输出列中对应的列行转换关键字列(对应关键字字段K) 和列值列(对应列值字段V);在导入表S中选择需要导入的数据行(默认全选);执行列行转置数据抽取,完成列行转置数据抽取导入的操作;导入执行完成后,执行结果显示在消息窗口中,整个抽取导入结束。
本发明还包括数据自动集成设计与实现
1)webservice数据接口
webservice数据接口是数据自动集成的关键技术之一,为此对webservice 数据接口做了如下设计:
①增加了调用webservice数据接口时带入参数的功能,用户调用需要输入参数的webservice数据接口时,输入指定参数或从数据库中读取已经预设好的参数,既可实现带参数的webservice接口访问。
②建立了webservice数据源参数表,将webservice数据源需要输入的参数及默认值保存在数据库中,调用webservice接口时自动从数据库中读取,避免用户反复输入。
③建立了webservice数据源表参数表,当同一webservice数据源需要输入多组不同参数时,可将每组参数得到的结果注册为数据源表,一次导入方案下既可实现同一webservice数据源输入多组参数获得多组结果数据并同时导入。
④针对自动导入执行时日期型参数需要不断变化的情况,加入了参数自动识别功能。在webservice数据源表日期型参数中默认值输入“X天前”、“当月”或“当年”等字样,自动导入在执行时会将这些默认参数自动转化为需要的日期型参数带入webservice接口,从而实现每次自动导入都能获得最新数据。
2)自动监测数据自动导入接口
各自动监测站点的自动监测数据采用了不同方法进行推送,既有通过webservice接口提供的,也有通过指定数据库接口提供的。数据业务化平台通过配置不同的自动导入方案,解决不同类型自动监测数据数据源的自动导入问题。平台根据正确配置的导入方案,初始化不同的数据引擎连接并访问相应的数据源获取数据,再将不同数据转换为统一的指定类型和格式,保存在综合数据库中。
导入过程由后台服务程序自动执行,根据自动导入业务需求,设置自动导入方案的自动执行周期、首次执行时间等参数。自动执行的结果会以日志形式记录在自动服务事件日志中。
3)水文数据自动获取接口
水文数据的来源可分为两个部分,一部分是由专门的水文数据提供者提供水文数据接口,通过配置自动导入方案,实现水文数据自动获取。另一部分是从长江水文网http://www.cjh.com.cn/和中国水情网 http://xxfb.hydroinfo.gov.cn/发布的公开水文数据中抓取需要的数据。
4)气象数据自动获取接口
一是使用了新的气象数据发布地址 http://api.openweathermap.org/data/2.5/weather;二是使用自动气象服务计划,用户将需要自动获取气象数据的城市添加到计划中,平台只获取这些城市的气象数据。
5)水质预报短信提示功能
为方便用户及时获得预警平台得到的水质预报结果,水环境数据业务化集成系统新增了水质预报短信提示功能。用户可设置一组接收短信的手机号码,预警平台得到的水质预报结果、往期水质预报结果评价等信息会以手机短信的形式发送至设置好的手机号码,用户不需打开电脑就可看到最新的水质预报结果。
参见图9所示,本发明公开了边缘端数据库网络安全:
(1)网络安全部署
1)网络安全整体架构
数据中心采用“信息保障技术框架(IATF)”安全体系结构,主要考虑人、操作和技术三个主要因素。其主要安全技术和应用框架如图9所示。
2)网络平台建设所必须考虑的安全问题
数据中心安全设在平台安全角度下可分为以下三个层次:设备级的安全、网络级的安全、系统级的主动安全、
(2)网络设备级安全
1)防蠕虫病毒的等DDos攻击;2)防VLAN的脆弱性配置;3)防止 ARP表的攻击的有效手段;4)防止DHCP相关攻击;
(3)网络级安全
网络级安全是网络基础设施在提供连通性服务的基础上所增值的安全服务,在网络平台上直接实现这些安全功能比采用独立的物理主机实现具有更强的灵活性、更好的性能和更方便的管理。数据中心的设计范围主要是访问控制和隔离(防火墙技术)。
1)安全域的划分;2)防火墙部署设计;3)防火墙策略设计;4)防火墙性能和扩展性设计;数据中心所采用的防火墙模块是具有5.5Gbps吞吐量、 100万并发连接数、每秒10万新建连接数能力的高端防火墙系统。FWSM性能和容量如表1所示。
表1 FWSM性能和容量
(4)网络的智能主动防御
1)网络准入控制;2)桌面安全管理;3)智能的监控、分析和威胁响应系统;4)分布式威胁抑制系统。
参照图10所示,本发明还公开了一种流域边缘端多源异构生态环境大数据集成系统,应用上述的流域边缘端多源异构生态环境大数据集成方法,包括依次连接的数据获取模块、边缘节点数据库建立模块、数据库交互模块、异构结构数据源集成模块;
数据获取模块用于获取边缘端各个边缘节点的数据;
边缘节点数据库建立模块用于将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
数据库交互模块用于将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
异构结构数据源集成模块用于将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
对所公开的实施例的上述说明,按照递进的方式进行,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,包括以下步骤:
S101.数据获取步骤:获取边缘端各个边缘节点的数据;
S201.边缘节点数据库建立步骤:将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
S301.数据库交互步骤:将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
S401.异构结构数据源集成步骤:将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
2.根据权利要求1所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
S101中边缘端各个节点包括但不限于气象、水利、生态环境、自然资源、流域机构和科研机构。
3.根据权利要求1所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
S201中构建的各个边缘节点对应的数据库包括但不限于水文数据库、水质数据库和水环境检测数据库,最终构建了水环境及水文边缘端综合数据库。
4.根据权利要求3所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
S301中水环境及水文边缘端综合数据库的混合式交换架构为集中式交换架构和分布式交换架构的结合,其存储方式为分布式云存储架构。
5.根据权利要求1所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
S401异构数据集成包括以下内容:
建立通用数据库引擎GDBE处理异构数据的异构问题,包括直接访问数据库一致的接口,用户以透明的方式访问并检索相关数据源中的数据,实现异构数据源间的数据迁移;
建立数据交换中间件DEM,基于通用数据库引擎GDBE进行数据从源数据库到目的数据库的导入交换。
6.根据权利要求5所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
数据交换中间件DEM基于各种数据库中数据类型的特点,先进行关系模式信息提取,建立关系型数据库以及关系型数据与系统数据间的转换映射,然后进行关系模式转换。
7.根据权利要求6所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
各种数据源间的数据类型映射关系,在数据交换DEM中间件中采用了数据库存储的方式保存,能够实现动态增删修改,当有新的数据库类型被加入时只需通过DEM提供的数据类型转换映射维护界面,建立新的转换映射关系。
8.根据权利要求1所述的一种流域边缘端多源异构生态环境大数据集成方法,其特征在于,
S401中对异构数据集成中的列存储的数据进行列组合,并转换为行存储数据,导入水环境及水文边缘端综合数据库,同时针对异构数据的多样性采取配置表实现该转换的通用性。
9.一种流域边缘端多源异构生态环境大数据集成系统,其特征在于,应用权利要求1-8任一项所述的流域边缘端多源异构生态环境大数据集成方法,包括依次连接的数据获取模块、边缘节点数据库建立模块、数据库交互模块、异构结构数据源集成模块;
数据获取模块用于获取边缘端各个边缘节点的数据;
边缘节点数据库建立模块用于将各个边缘节点的数据按照对应的标准来构建数据库,得到各个边缘节点对应的数据库;
数据库交互模块用于将各个边缘节点对应的数据库按照混合式交换架构进行数据的传递和交互;
异构结构数据源集成模块用于将各个边缘节点的数据库内的异构数据源集成到一起,使用户以透明的方式访问这些数据源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634251.XA CN114969188A (zh) | 2022-06-07 | 2022-06-07 | 一种流域边缘端多源异构生态环境大数据集成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634251.XA CN114969188A (zh) | 2022-06-07 | 2022-06-07 | 一种流域边缘端多源异构生态环境大数据集成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969188A true CN114969188A (zh) | 2022-08-30 |
Family
ID=82959107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210634251.XA Pending CN114969188A (zh) | 2022-06-07 | 2022-06-07 | 一种流域边缘端多源异构生态环境大数据集成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969188A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520606A (zh) * | 2024-01-04 | 2024-02-06 | 浙江大学 | 一种异构数据源导入图数据库的方法及装置 |
-
2022
- 2022-06-07 CN CN202210634251.XA patent/CN114969188A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520606A (zh) * | 2024-01-04 | 2024-02-06 | 浙江大学 | 一种异构数据源导入图数据库的方法及装置 |
CN117520606B (zh) * | 2024-01-04 | 2024-04-09 | 浙江大学 | 一种异构数据源导入图数据库的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200081898A1 (en) | A Method for Constructing Electricity Transaction Index System Based on Big Data Technology | |
CN108446293A (zh) | 一种基于城市多源异构数据构建城市画像的方法 | |
CN111400326A (zh) | 一种智慧城市数据管理系统及其方法 | |
CN111488420B (zh) | 去中心微服务化区域洪水预警水信息系统及其集成方法 | |
CN115238015A (zh) | 一种基于微服务的时空大数据平台 | |
CN104794150A (zh) | 一种基于空间知识云环境的云存储模型与管理方法 | |
CN109684435B (zh) | 去专业化多源异构时空地理数据集成系统及方法 | |
CN105007314A (zh) | 面向海量读者阅读数据的大数据处理系统 | |
CN111209323A (zh) | 一种空间地理信息大数据处理系统 | |
CN114969188A (zh) | 一种流域边缘端多源异构生态环境大数据集成方法及系统 | |
CN109710667A (zh) | 一种基于大数据平台的多源数据融合共享实现方法及系统 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
Ye | Research on the key technology of big data service in university library | |
CN108804781B (zh) | 流计算与传感网集成的地理过程近实时模拟方法 | |
CN117272223A (zh) | 基于大数据和遗传规划的泥石流多因子融合预测系统 | |
Pan et al. | An open sharing pattern design of massive power big data | |
Zhang et al. | Design of Offline Analysis System for Remote Sensing Data Service Based on Hive | |
Gao et al. | Research on Natural Resources Spatio-Temporal Big Data Analysis Platform for High Performance Computing | |
Wu et al. | The design of distributed power big data analysis framework and its application in residential electricity analysis | |
Zhang et al. | Research on the construction and robustness testing of SaaS cloud computing data center based on the MVC design pattern | |
Xiaobing et al. | An insight into traffic safety management system platform based on cloud computing | |
KR20150026825A (ko) | NoSQL 데이터 및 링크드 데이터 연계 장치 및 방법 | |
An et al. | Research on the Design and Key Technology of “Smart Housing Construction” Service Management Platform-Taking Zhijiang City as an Example | |
Lv et al. | Infrastructure Smart Service System Based on Microservice Architecture from the Perspective of Informatization | |
Kong | Construction of distributed Data management platform for Land Engineering based on Hadoop Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |