CN110825744A

CN110825744A - 一种基于集群环境的空气质量监测大数据分区存储方法

Info

Publication number: CN110825744A
Application number: CN201911053354.1A
Authority: CN
Inventors: 刘黎志; 彭贝; 杨敏; 张晨跃
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-21
Anticipated expiration: 2039-10-31
Also published as: CN110825744B

Abstract

本发明公开了一种基于集群环境的空气质量监测大数据分区存储方法，该方法包括以下步骤：S1设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表；S2为每个自动化监测站数据表添加CHECK约束；S3根据多维度的统计需求，提取数据表的相应字段分量作为新的分区维度，然后使用UNION ALL操作符，将所有的监测站点数据表构建v_All_Samples分区视图；S4配置能用于Hadoop、Spark集群的Eclipse开发环境，生成SparkSesion对话实例sparkHBAir，以jdbc的方式连接SQL Server数据库服务器，将v_All_Samples读取到Spark集群中的hbairData数据集中；S5对hbairData数据集进行分区，获得对hbairData数据集进行多维度、分层次的分区存储。本发明方法对比传统的关系数据库分区视图技术，在大规模数据的操作方面有明显的效率优势。

Description

一种基于集群环境的空气质量监测大数据分区存储方法

技术领域

本发明涉及大数据存储技术，尤其涉及一种基于集群环境的空气质量监测大数据分区存储方法。

背景技术

环境空气质量监测数据由分布在城市中的自动化监测站产生，经过日积月累，会形成符合4V特征，即规模大、类别多、处理速度快、价值密度低的大数据。根据《环境空气质量指数AQI技术规定》(HJ633-2012)，各个自动化监测站需要记录：SO₂(二氧化硫)，NO₂(二氧化氮)，PM₁₀(颗粒物粒径小于等于10um)，CO(一氧化碳)，O₃(臭氧)，PM_2.5(颗粒物粒径小于等于2.5um)这六个污染物的小时均值及相关的气象参数，如风向、风速、大气压、气温、相对湿度的小时均值。省级环境监测总站负责收集汇总所辖的城市的各个自动化监测站的数据，为便于区分各个自动化监测站的数据，一般会在其中心数据库中为每个自动化监测站建立一张数据表，专门用于记录对应自动化监测站的数据。数据汇总到省级中心站数据库后，会对数据进行计算、查询、统计、分析，如计算城区空气质量指数(AQI)、统计某个城市在某个时间范围内的某个污染物的均值，对比某个城市同期的空气污染情况等。为满足对数据进行计算、查询、统计、分析各类需求，需要做以下两个方面的工作。

1、将所有自动化监测站点的数据表以视图的方式进行组合，从而形成包括所有站点数据的全局视图，方便数据的计算、查询、统计、分析。

2、对形成的全局视图进行分区，从而提高计算、查询、统计、分析的效率。

由于省级中心站数据库中记录每个自动化监测站的数据表的结构是相同的，对于SQL Server数据库管理系统，可以使用分区视图技术来完成前述的两个方面的工作。分区视图技术根据各个成员数据表中的某个列的取值范围对数据进行分区，每个成员表为分区所依据的列指定了CHECK约束，从而限定其取值范围。然后使用UNION ALL操作符将选定的所有成员数据表组合成全局视图。引用该视图的SELECT语句为分区依据列指定搜索条件后，查询分析器将使用CHECK约束来确定查询哪个成员表中的记录。

SQL Server的分区视图只能使用对数据表的CHECK约束，对一个字段进行限定，且该字段为分区的依据，但数据统计是多维的，对于前面的示例，假设需要按公司的各个部门来统计销售额，由于分区的依据是季节(Season)，故对全局视图只能进行全部扫描才能得到各个部门的销售额。Hive的数据分区技术，以多个字段对数据进行层次分区，分区的结果以文件的形式存储在hdfs文件系统中，从而更加适合于大规模数据的多维统计分析，同时由于Hive SQL的执行是以MapReduce的方式分布式进行的，所以可以显著的缩短数据计算、查询、统计、分析所需要的时间，提高效率。本发明针对空气质量监测大数据，提出了一种在集群(Hadoop、Spark)环境下，基于Hive进行分区存储的新方法，实验证明，该新方法较传统的关系数据库分区视图技术，在大规模数据的计算、统计、分析方面有明显的优势。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于集群环境的空气质量监测大数据分区存储方法。

本发明解决其技术问题所采用的技术方案是：一种基于集群环境的空气质量监测大数据分区存储方法，包括以下步骤：

S1：设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表，所述数据表包括：数据名称、数据类型、是否为主属性、说明；

其中，数据名称包括以下字段：SStation(站点编码)、SID(污染物及气象参数编码)、SDataTime(记录时间)、SValue(监测值)、SSamples(样本数)、SMark(仪器工作状态)、SMID(监测值的单位)；

S2：为每个自动化监测站数据表添加CHECK约束；

S3：根据多维度的统计需求，提取数据表的相应字段分量作为新的分区维度，然后使用UNION ALL操作符，将所有的监测站点数据表构建v_All_Samples分区视图；

S4：配置能用于Hadoop、Spark集群的Eclipse开发环境，生成SparkSesion对话实例sparkHBAir，以jdbc的方式连接SQL Server数据库服务器，将v_All_Samples读取到Spark集群中的hbairData数据集中；

S5：对hbairData数据集进行分区，获得对hbairData数据集进行多维度、分层次的分区存储。

按上述方案，所述S1中，SStation字段格式为第1至2位为站点标记，第3至6位为地区编码，第7至9位为序列号编码。

按上述方案，所述S1中，SDataTime字段格式为ISO标准格式。

按上述方案，所述S2中，为每个自动化监测站数据表添加CHECK约束为根据查询分析需求对作为视图分区依据的字段进行数值约束。

按上述方案，所述S2中，为每个自动化监测站数据表添加CHECK约束为对站点编码字段设为定值。

按上述方案，所述S3中，所述相应字段为主属性字段中的对应字段。

按上述方案，所述S3中，提取数据表的相应字段分量包括提取每个记录的SStation分量的第3至6位地区编码Region，提取SDataTime分量的1至4位年份Year，并将Region和Year作为新的分区维度。

本发明产生的有益效果是：本发明方法使用Hive分区表，避免了SQL Server分区视图技术只能以一个字段作为分区依据的缺陷，多维度的层次分区使得分区的粒度更小，在进行数据操作时，只读入所需要的分区文件，从而避免了对所有数据表的扫描，减少了文件I/O操作，显著提高了数据计算、查询、统计、分析的性能。实验证明，该方法较传统的关系数据库分区视图技术，在大规模数据的操作方面有明显的效率优势。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的SQL Server分区视图转换为Hive分区表示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于集群环境的空气质量监测大数据分区存储方法，包括以下几个步骤：

S1：设计省级环境监测中心站SQL Server数据库用于记录每个自动化监测站的小时均值的数据表，其结构如表1所示：

表1.监测站小时均值数据记录表结构

S2：为每个自动化监测站数据表添加CHECK约束，如SStation＝‘SS4201001’，表示该数据表只能记录站点编码为‘SS4201001’空气质量污染物及气象参数的小时均值数据。站点编码(SStation)字段为视图的分区依据；

S3：使用UNION ALL操作符，将所有的监测站点数据表表示为一个分区视图。

为方便对数据进行多维度的统计分析，提取每个记录的SStation分量的第3至6位为地区编码(Region)，提取SDataTime分量的1至4位为年份(Year)，作为新的分区维度构建分区视图v_All_Samples。

具体过程描述为：

SELECT SUBSTRING(SStation,3,6)as Region,SStation,SID,SUBSTRING(SDateTime,1,4)AS Year,SDateTime,SValue,SSamples,SMark,SMID

FROM监测站点数据表1

UNION ALL

FROM监测站点数据表2

UNION ALL

...

FROM监测站点数据表n

SQL Server数据库中v_All_Samples视图的结构如表2所示：

表2.分区视图v_All_Samples结构

S4：配置能用于Hadoop、Spark集群的Eclipse开发环境，生成SparkSesion对话实例sparkHBAir，以jdbc的方式连接SQL Server数据库服务器，将v_All_Samples读取到Spark集群中的hbairData数据集中。实现的伪代码描述如下：

//生成SparkSession对话实例

SparkSession sparkHBAir＝SparkSession

.builder()

.appName("Spark的项目名称")

.master("Spark集群主节点地址")//例如："spark://192.168.2.151:7077"

.config(key,value)//Spark集群环境参数配置

.enableHiveSupport()

.getOrCreate()；

spark.sparkContext().addJar("加载到Spark集群的jar包的本地路径")；

//设置SQL Server数据库的用户名及密码

Properties connectionProperties＝new Properties()；

connectionProperties.put("user","用户名")；

connectionProperties.put("password","密码")；

//读取视图v_ALL_Samples到Spark集群的hbairData数据集

Dataset<Row>hbairData＝spark.read()

.jdbc("jdbc:sqlserver://数据库服务器IP地址；databaseName＝数据库名称",

"v_ALL_Samples",connectionProperties)；

S5：对hbairData数据集进行分区，按"Region","SStation","SID","Year"的次序对hbairData数据集进行多维度、分层次的分区存储。

实现的伪代码描述如下：

hbairData

.write()

.mode(SaveMode.Overwrite).format("json")

.partitionBy("Region","SStation","SID","Year")

.saveAsTable("emcdb.HBAirData")；

以Hive分区表存储在集群环境中的空气质量环境监测数据的结构为：

其中“XXXX年监测数据文件”为Hive分区表的实际分区文件，对于：

其中的“2015年监测数据文件”，所包含的记录为湖北省武汉市，东湖梨园监测站，污染物PM₁₀，2015年的所有小时均值。使用Hive分区表，避免了由于SQL Server分区视图技术只能以一个字段作为分区依据的缺陷，多维度的层次分区使得分区的粒度更小，在进行数据操作时，只读入所需要的分区文件，从而避免了对所有数据表的扫描，减少了文件I/O操作，显著提高了数据计算、查询、统计、分析的性能。将记录所有监测站点小时均值数据的SQL Server全局分区视图转换为Hive分区表的示意图见说明书附图1。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚明白。设计统计污染物均值的实验来对比相同配置的服务器环境下，SQL Server数据库分区视图和Spark集群Hive分区表之间的性能差异。实验采用两台配置相同DELL PowerEdge R720服务器(A，B)。具体配置为：两个物理CPU(Intel Xeon E5-2620 V2 2.10GHZ，每个CPU含6个内核，共12个内核)，32G内存，8T硬盘，4个物理网卡。A服务器安装Windows Server 2008操作系统，SQL Server 2012数据库管理系统。B服务器安装VMWare esxi6.0.0操作系统，虚拟化服务器环境。客户端使用VMWare VSphere client 6.0.0将服务器划分为4个虚拟机，每个虚拟机的配置为3内核CPU，8G内存，2T硬盘，1个物理网卡。每个虚拟机安装ubuntu-16.04.1-server-amd64操作系统，Hadoop-2.7.3及Spark-2.1.1分布式计算平台，组成含1个主节点，4个数据节点(主节点也是数据节点)的集群，Hive的版本为2.1.1。

设计以下的四个求污染物均值的查询语句：

查询1：计算某个污染物在某个指定年份的均值。

查询2：计算某个污染物所有年份的均值。

查询3：计算某个指定年份的所有污染物均值

查询4：计算所有污染物、所有年份的均值

四个查询分别使用以下三个限定范围：

1、查询的范围限定为某个监测站点。

2、查询的范围限定在某个地区。

3、查询的范围没有站点和地区的限定。

使用空气质量污染物小时均值记录个数分别为0.5*10⁹、1*10⁹、2*10⁹、4*10⁹条的四个数据集，在A服务器中以SQL Server分区视图存储，在B服务器中以Hive分区表存储。比较四个查询分别在三个限定范围下所需要的时间，结果如表3、4、5所示。

表3.查询的范围限定为某个监测站点的时间比较

由于查询限定了监测站点，因此SQL Server分区视图可以根据CHECK约束定位到监测站点的数据表进行均值的计算，对于记录个数不等的数据集，条件不同的查询，经过查询分析器的优化，所需要的时间差距不大。

对于Hive分区表，查询1假设限定的站点编码为‘SS4201001’，污染物编码为‘EP01’，年份为‘2015’。则计算东湖梨园站，污染物PM₁₀的2015年度均值所需要的分区文件为：

查询2假设限定的站点编码为‘SS4201001’，污染物编码为‘EP01’。则计算东湖梨园站，污染物PM₁₀的所有年度均值所需要的分区文件为：

查询3假设限定的站点编码为‘SS4201001’，查询年份为‘2015’，则计算东湖梨园站，2015年度所有污染物均值所需要的分区文件为(加粗部分为需查询的文件)：

查询4假设限定的站点编码为‘SS4201001’，则计算东湖梨园站所有污染物、所有年度的污染物均值所对应的分区文件为(加粗部分为需查询的文件)：

由于在Spark集群环境下对Hive分区表查询需要进行建立线程、分配内存及销毁现场等操作，故对于限定监测站点的四个查询，Hive分区表的查询性能较SQL Server分区视图差。SQL Server分区视图查询速度快的根本原因在于由CHECK约束限定的记录监测数据小时均值的某个数据表的大小一般小于服务器A的内存大小，所以SQL Server查询分析器会把整个数据表读入内存进行均值的计算，Hive分区技术按照分区的层次，逐个读入计算均值所需要的文件到内存后，才进行计算。

表4.查询的范围限定为某个地区的时间比较

分析表4的查询结果，可以发现Hive分区技术的查询速度较SQL Server分区视图有了显著的提高，特别是当数据集中的记录个数增加到4*10⁹时，查询3比SQL Server分区视图快了20多倍。原因在于，当查询条件限定为某个地区时，SQL Server分区视图无法通过CHECK约束定位到监测站点的数据表，只能将所有数据表加载到内存中进行均值计算，故当数据集大于A服务器内存大小时，就会出现反复的磁盘I/O操作，从而导致计算均值的效率严重下降。

而Hive分区技术仍然是按照分区的层次，依次读取计算均值所需要的分区文件。以查询3为例，假设限定的地区编码为‘4201’，查询年份为‘2015’，则计算湖北省武汉市，2015年度所有污染物均值所对应的分区文件为(加粗部分为需查询的文件)：

因此使用Hive分区表，避免了由于SQL Server分区视图技术只能以一个字段作为分区依据的缺陷，多维度的层次分区使得分区的粒度更小，在进行计算、查询、统计、分析时，只读入所需要的分区文件，避免了对所有数据表的扫描，从而减少了文件I/O操作，提高了性能。即便对于查询4，计算湖北省武汉市所有污染物、所有年度的污染物均值，也只需要将Region＝‘4201’下的所有分区文件读入内存进行计算，同样避免了对所有分区文件的扫描。

表5.查询的范围没有站点和地区的限定时间比较

表5的对比结果是分析当4个查询的范围不做站点和地区限定时，计算污染物均值的性能差异。对于SQL Server分区视图，由于没有了站点的限制，故所有的计算均需要通过全部数据表的扫描才能完成。对于Hive分区表，仅查询4需要扫描所有的分区文件才能完成均值的计算，其它查询只需要扫描部分分区文件，只是扫描的范围加大了，加载到内存中进行计算的分区文件个数增加了而已。即便是对于查询4，计算所有污染物、所有年度的均值，需要对全部分区文件进行扫描，由于Hive分区表的均值计算是基于集群环境下分布式MapReduce框架计算的，其速度在四个不同大小的数据集下，仍然要比传统的SQL Server分区视图的全部数据表扫描要快近1倍。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于集群环境的空气质量监测大数据分区存储方法，其特征在于，包括以下步骤：

其中，数据名称包括以下字段：SStation：站点编码、SID：污染物及气象参数编码、SDataTime：记录时间、SValue：监测值、SSamples：样本数、SMark：仪器工作状态、SMID：监测值的单位；

S2：为每个自动化监测站数据表添加CHECK约束；

2.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法，其特征在于，所述S1中，SStation字段格式为第1至2位为站点标记，第3至6位为地区编码，第7至9位为序列号编码。

3.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法，其特征在于，所述S1中，SDataTime字段格式为ISO标准格式。

4.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法，其特征在于，所述S2中，为每个自动化监测站数据表添加CHECK约束为根据查询分析需求对作为视图分区依据的字段进行数值约束。

5.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法，其特征在于，所述S3中，所述相应字段为主属性字段中的对应字段。

6.根据权利要求1所述的基于集群环境的空气质量监测大数据分区存储方法，其特征在于，所述S3中，提取数据表的相应字段分量包括提取每个记录的SStation分量的第3至6位地区编码Region，提取SDataTime分量的1至4位年份Year，并将Region和Year作为新的分区维度。