CN108763273A

CN108763273A - 一种高寒草地数据处理方法及管理系统

Info

Publication number: CN108763273A
Application number: CN201810312021.5A
Authority: CN
Inventors: 胡月明; 晔沙
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-11-06

Abstract

本发明公开了一种高寒草地数据处理方法及管理系统，通过高寒草地数据管理系统、构建Hive数据存储仓库后进行数据分析，减低高寒草地数据存储成本和加快高寒草地数据分析速度，可快速有效的针对需求得到数据结构，具有良好的经济性和实用性。

Description

一种高寒草地数据处理方法及管理系统

技术领域

本发明涉及土地利用研究领域，具体涉及一种高寒草地数据处理方法及管理系统。

背景技术

现有的高寒草地数据存储和分析技术主要采取关系型数据库系统。关系型数据库系统对于数据量不大的情形有较好的适应性，然而，面对海量数据的存储与分析，其仍存在不少的缺点。首先，现有的关系型数据库技术难以对海量数据进行管理。现有关系型数据库技术不是为大规模可伸缩的分布式管理设计的，很多技术公司尝试提供一些“分区”或“复制”的解决方案，但是非常难以安装与维护，并会牺牲连接、查询、视图等重要功能。其次，关系型数据库基础架构采用高性能计算机或者服务器，一旦数据量较大，对海量数据的管理必然导致高可用性能计算机购置及维护带来的成本上升问题。

发明内容

为了克服海量高寒草地数据储存硬件成本高昂、关系型数据库难以对海量高寒草地数据进行存储分析的困难，本发明提供了一种高寒草地数据处理方法及管理系统，通过搭建Hadoop分布式存储平台、构建Hive数据存储仓库后进行数据分析，减低高寒草地数据存储成本和加快高寒草地数据分析速度，可快速有效的针对需求得到数据结果，具有良好的经济性和实用性。

相应的，本发明提供了一种高寒草地数据处理方法，包括以下步骤

将原始高寒草地数据导入至高寒草地数据管理系统；

设计高寒草地数据主题表，并基于所述高寒草地数据主题表在所述高寒草地数据Hadoop分布式文件系统中构建Hive数据存储仓库；

对所述高寒草地数据主题表之间进行表关联处理。

优选的实施方式，所述高寒草地数据处理方法还包括以下步骤：

搭建所述高寒草地数据管理平台。

基于用户需求进行高寒草地数据分析；

输出高寒草地数据分析结果。

优选的实施方式，所述设计高寒草地数据主题表包括以下步骤，筛选所述高寒草地数据字段，筛选条件为：

是否为草地生态退化评价所需数据字段；

是否能通过字段数据分析挖掘对草地生态未来趋势性问题进行预测；

字段数据间是否具有关联性。

优选的实施方式，所述高寒草地数据主题表包括监测站主题表、草地类型主题表、生物量主题表、气象主题表、水文主题表；每个主题表中具有多个字段。

优选的实施方式，所述原始高寒草地数据包括历史高寒草地数据和实时高寒草地数据；

所述导入原始高寒草地数据至高寒草地数据管理平台包括以下步骤；

从历史数据库中提取历史高寒草地数据并导入至所述高寒草地数据Hadoop分布式文件系统；

导入实时高寒草地数据。

优选的实施方式，基于Sqoop工具将所述历史高寒草地数据从历史数据库导入至所述高寒草地数据Hadoop分布式文件系统。

优选的实施方式，所述导入实时高寒草地数据包括以下步骤：

基于监测站站点采集实时高寒草地数据；

对所述实时高寒草地数据进行文本化处理，每条实时高寒草地数据中不同字段的信息采用制表符分隔，不同高寒草地数据之间采用换行符分隔；

将文本化处理后的实时高寒草地数据导入至所述高寒草地数据Hadoop分布式文件系统。

优选的实施方式，所述导入初始高寒草地数据至高寒草地数据管理系统还包括以下步骤：

基于所述高寒草地数据获取的监测站点所在行政单位的行政区域代码对所述高寒草地数据进行分区，同一个行政区的所有高寒草地数据位于同一分区内。

相应的，本发明还提供了一种高寒草地数据管理系统，所述高寒草地数据管理系统包括

数据存储层：用于储存原始高寒草地数据，包括有多个数据节点，所述多个数据节点分布式共同储存有原始高寒草地数据；

数据分析层：用于基于Hive从所述数据存储层中提取信息；

用户接口模块：用于与用户进行交互。

本发明提供了一种高寒草地数据处理方法及管理系统，通过高寒草地数据管理系统、构建Hive数据存储仓库后进行数据分析，减低高寒草地数据存储成本和加快高寒草地数据分析速度，可快速有效的针对需求得到数据结构，具有良好的经济性和实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的高寒草地数据处理方法流程图；

图2为本发明实施例的高寒草地数据管理系统结构图；

图3为本发明实施例的HDFS节点配置示意图；

图4为本发明实施例的主题表字段详情表；

图5为本发明实施例的高寒草地数据管理系统的存储数据文件大小与运行时间之间的关系折线图；

图6为本发明实施例的高寒草地数据管理系统的读取数据文件大小与运行时间之间的关系折线图；

图7为本发明实施例Hive数据仓库分析高寒草地数据的数据量与运行时间关系折线图；

图8为本发明实施例的Hive数据仓库的处理分析能力结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为解决采用高性能计算机或服务器进行海量高寒草地生态数据存储和分析所带来的成本较高，价格昂贵的问题，本发明使用廉价的普通计算机作为解决方案，通过在廉价的计算机集群上完成系统设计、节点配置、集群配置等步骤，从而搭建起基于Hadoop的分布式存储计算平台，以作为海量数据存储和分析的工具，解决了成本较高、价格昂贵的问题。

为解决关系型数据库难以对海量数据进行存储和分析的问题，本发明采用分布式文件系统HDFS作为存储系统，使用Hive中的HiveQL语言对草地海量数据进行分析和数据挖掘，充分利用Hadoop分布式技术的优点，将存储和计算任务合理分配到集群节点上；解决现有技术手段难以进行海量数据存储和分析的问题，使运行效率比提高到原来提高了1/3。

由于高寒草地数据具有海量的特性，传统的基础架构与关系型数据管理技术难以满足需求。因此，本发明实施例提供一种高寒草地数据处理方法及系统，对高寒草地海量数据提供快速整合、并行存储和管理，为海量数据的应用提供有力支撑。

图1示出了本发明实施例提供的高寒草地数据处理方法流程图。本发明实施例提供的高寒草地数据处理方法包括以下步骤：

S101：搭建高寒草地数据管理平台；

具体的，可基于Hadoop架构进行高寒草地数据管理平台的搭建。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，使用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

图2示出了本发明实施例提供的高寒草地数据Hadoop平台结构图，高寒草地数据Hadoop平台整体设计自下而上分为数据存储层、数据分析层和数据应用层；其中，

数据存储层：用于储存原始高寒草地数据，具体的，采用Hadoop分布式文件系统HDFS，包括有多个数据节点，所述多个数据节点分布式共同储存有原始高寒草地数据；

数据分析层：用于从数据存储层中提取信息，具体的，可使用Hive工具；Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

MapReduce是一个基于集群的高性能并行计算框架，它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少了开发人员的负担。

在Hadoop生态系统中，Hive是建立在Hadoop上数据仓库基础架构。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制；Hive定义了简单的类SQL查询语言，称为HiveQL，它允许熟悉SQL的用户查询数据。

Hive数据仓库技术有着十分鲜明的特点，适应且匹配高寒草地生态数据存储所面临的问题，如Hive支持各类数据类型，包括整型、浮点型、布尔型、字符串及其他集合数据类型，可以满足各种数据格式的存储需求；Hive使用的计算模型是MapReduce，是为海量数据进行数据挖掘而设计的，适用于从海量的高寒草地生态及历史监测数据中挖掘有用的数据信息，为高寒草地生态退化评价与保护提供数据支持；Hive的数据存储功能继承于Hadoop，使用HDFS分布式文件系统做为数据存储方式，能很好的拓展存储空间和计算能力，在面对海量的高寒草地历史数据及每日不断更新的实时监测数据，Hive能够有效的对海量数据进行存储。

用户接口：用于与用户进行交互；用户接口模块使得非专业技术人员可以进行管理与访问；具体的，用户接口模块为面向普通用户的信息，如数据挖掘、报表工具、操作按钮、操作指南等信息，其内连于Hive，非专业技术人员可通过用户接口对Hive进行访问查询等工作，而不需了解计算机内部执行过程。图3示出了本发明实施例的节点配置信息表。根据高寒草地数据存储与分析的需要，本发明实施例需要搭建高寒草地数据HDFS。具体实施中，选定一台机器作为名称节点，其他机器作为数据节点，将集群所用节点部署在同一个局域网内，完成网络配置，实现多个节点互连。

本发明实施例的Hadoop平台由5个节点组成，其中1个节点为名称节点，4个节点为数据节点，具体的，可使用Ubuntu/Linux作为操作系统。每个节点的配置可参照图3示出的节点配置信息表。

具体的，需要对节点进行程序配置，在各个计算机节点上配置hadoop用户，安装Java环境JDK，安装SSH并配置SSH无密码登陆，安装最新的Hadoop稳定版本，完成节点的配置。

具体的，在Linux环境中，通过设置可以让名称节点可以无密码SSH登录到各个从节点上并通过修改5个配置文件：slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml来完成集群环境的配置。

最后，通过start-all.sh命令启动集群，完成HDFS搭建，并在HDFS的基础上，生成高寒草地数据Hadoop分布式存储计算平台。

综上所述，在高寒草地数据Hadoop分布式存储计算平台上部署有本发明实施例所需要的分布式文件系统HDFS，数据仓库Hive，资源管理系统Yarn。HDFS及Hive用于对高寒草地海量生态数据的存储与分析，Yarn则用于承担集群资源管理和作业管理任务。

其中，YARN是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为提高系统利用率、资源的统一管理和数据共享等方面带来了巨大好处。

S102：导入原始高寒草地数据至高寒草地数据管理平台；

原始高寒草地数据主要包括历史高寒草地数据和实时高寒草地数据。

具体的，高寒草地历史数据的主要来源为现有的高寒草地数据存储数据库，大部分为关系型数据库系统导出的高寒草地历史数据,可通过Sqoop工具进行导入，Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中；由于历史高寒草地数据具有高度的规整性，具体实施中，可直接通过Sqoop工具进行转换，不需要经过数据处理。

具体的，实时高寒草地数据来源则为实时更新的各监测站点数据，在导入前，需对该类高寒草地数据进行基本的数据预处理，例如进行数据填充、数据去重的操作，将得到的数据以文本文件的格式进行存储，每条原始高寒草地数据中的字段用制表符分隔，每条数据用换行符分隔，以适应HDFS的存储方式，方便导入Hive数据仓库中。

同时，考虑到高寒草地数据均从监测站点或者草地样方获取，本发明实施例将高寒草地的数据以监测站点所在行政单位的行政区划代码为分区依据，属于同一行政区的所有草地监测数据将会被放在同一个分区之内，使得对于某个特定行政区内的数据进行查询和分析时，只需扫描分区内的数据，避免对所有数据进行检索，从而大幅度提升了数据查询与分析的效率。

数据导入后，HDFS中已包括所有的高寒草地历史数据。

S103：设计高寒草地数据主题表，并基于所述高寒草地数据主题表构建Hive数据存储仓库；

具体应用的主要需求为从海量的数据类型中筛选出所需数据，一般的筛选条件为：是否为草地生态退化评价所需数据类，是否能通过数据分析挖掘对草地生态未来趋势性问题进行预测，数据间是否有较强关联性。

通过以上筛选条件，可得到本发明实施例所需的主要数据主题表为：监测站主题表、草地类型主题表、生物量主题表、气象主题表、水文主题表。

图4示出了本发明实施例的主题表信息表。其中，每个主题表中包括特定的字段类别信息，具体的主题表字段信息可参照图4所示的主题表信息表。

把高寒草地数据预处理之后得到的结构化数据映射为数据库表，导入Hive数据仓库内。实际实施中，通常有两种方法，当数据量不大的情况，可以从本地加载数据到Hive数据仓库中；当数据量较大时，可以先将数据文件导入Hadoop的分布式文件系统HDFS中，再利用Hive命令将数据从HDFS中加载入Hive数据仓库中。

由于本发明实施例已构建HDFS，因此可通过Hive命令将所需数据从HDFS中加载入Hive数据仓库中。

S104：对所述Hive数据仓库中的多个高寒草地数据主题表进行表连接；

通过步骤S100～S102，完成高寒草地数据的加载并构建出Hive数据仓库。为了使得Hive数据仓库内各主题表的数据相互关联，对各主题表的数据进行综合分析，以对海量数据中的关联信息进行数据挖掘，还需要对各主题表之间进行表连接以实现数据关联。本发明实施例中对Hive数据仓库中的各主题表进行表连接，在Hive数据仓库中构建有利于数据分析的总表，总表中包括有所有主题表的所有字段信息，以便可以有效的对监测站主题表、草地类型主题表、生物量主题表、气象主题表、水文主题表等高寒草地的数据进行综合分析及深度数据挖掘。

S105：基于需求从Hive数据仓库中进行高寒草地数据分析；

S106：输出高寒草地数据分析结果。

实际使用中，Hive数据仓库的用途主要为高寒草地数据分析及结果保存，Hive数据仓库与HDFS相比，剔除部分无关的字段内容，保留的字段内容具有更为良好的参考价值，在进行数据分析时，效率更高。具体实施中，一般通过HiveQL语句的命令对Hive数据仓库中的数据进行查询和分析，这部分工作主要由Hive的驱动模块进行处理完成。

具体的，通过HiveQL语句首先进入到驱动模块，由驱动模块中的编译器进行解析编译，并由优化器对该操作进行优化计算，然后交给执行器去执行，最后将处理结果输出，保存在本地文件系统上，以便于使用。

图2示出了本发明实施例的高寒草地数据管理系统结构示意图。相应的，本发明实施例还提供了一种高寒草地数据管理系统，所述高寒草地数据管理系统包括

用户接口：用于与用户进行交互；用户接口模块使得非专业技术人员可以进行管理与访问；具体的，用户接口模块为面向普通用户的信息，如数据挖掘、报表工具、操作按钮、操作指南等信息，其内连于Hive，非专业技术人员可通过用户接口对Hive进行访问查询等工作，而不需了解计算机内部执行过程。

图5和图6分别示出了本发明实施例高寒草地数据管理系统的存储数据和读取数据的文件大小与运行时间的关系折线图。为了验证高寒草地数据管理系统是否对海量数据的存储有很好的适应性，可通过测试工具对系统的文件读写性能进行测试，本发明实施例使用Hadoop的基准测试工具TestDFSIO，用于测试系统的文件读写性能。

TestDFSIO是目前Hadoop应用最为广泛的文件系统性能测试、分析与评估的工具，能够产生并测试各种操作性能。本发明实施例通过TestDFSIO工具，改变系统读写文件的文件大小、文件数量，获取总运行时间和平均运行时间，以对集群的性能进行评价。例如，本发明实施例控制文件数量为10，文件大小从5MB增加到500MB，对系统的读写性能进行测试，获取总运行时间和平均运行时间，即平均写1MB数据所使用的时间，对系统的大、小文件读写性能进行评价。

由图5和图6可知，在文件数量为10时，文件大小增加时，总体数据规模的增大，系统的整体运行时间一直处于增长的状态，但是平均运行时间，即平均写1MB数据所使用的时间处于降低的趋势，说明随着数据量的增加，系统并行处理海量数据的能力越强，平均写1MB数据所使用时间越少。因此，基于Hadoop集群对高寒草地海量数据的存储有很好的适应性，读写的数据量越大系统的处理速度越快。

图7示出了本发明分析高寒草地数据的数据量与运行时间关系折线图。为了解本发明在分析海量高寒草地数据方面的效率，对本发明以及关系型数据库技术RDBMS对数据处理的性能进行对比。测试数据采用2014年青海省称多县草地样方监测数据及部分模拟数据，总数据量约为3958万条(7.56GB)。对此数据采用SQLserver2008与本发明进行字段“植物种类”中的查询处理，得到数据处理性能的对比。考虑到单次实验的偶然性，每组实验进行三次处理并取平均值得到最后结果。实验结果如图7所示。

实验结果分析，当数据量较小的时候，RDBMS的处理效率更高，本发明的集群并行处理效率没有体现，但随着数据量的增大，当数据量超过350万条并且逐渐增加，本发明的集群处理效率逐渐超过RDBMS，本发明处理海量数据的优势十分明显，当数据量达4000万条时，它处理的时间只要原来2/3。这是由于本发明是建立在Hadoop平台上的数据批处理技术，集群对环境的初始化、任务调度及数据传输耗时所占比重较大，但当数据规模逐渐增大时，这些额外耗时基本稳定，额外耗时所占比重减少，本发明对海量数据的分析优势得以体现。实验证明，本发明数据存储和分析技术对海量数据的应用有很好的适应性。

图8示出了本发明对于一具体问题的处理分析结果图。在创建基于Hive的高寒草地生态数据仓库后，可以通过HiveQL对高寒草地生态数据进行分析处理，从海量数据中获取有用信息。为了验证本发明对海量数据的分析处理能力，进行第三组实验，实验所用2000-2015年青海省草地类型数据，从中统计青海省东南部三县2007-2014年的主要草地类型及其营养枝与生殖枝高度。通过本系统的分析处理之后，得到如下结果。主要植物种类为，早熟禾、火绒草、高山嵩草、蒲公英、龙胆、苔草、马先蒿等，其中早熟禾与蒲公英的营养枝、生殖枝高度最高，火绒草与高山嵩草高度较低。

为了验证以上数据分析结果的正确性，本发明实施例开展相应的对照实验。首先从2000-1015年青海省草地类型数据中筛选出2007-2014年数据，再从中筛选出研究区的数据。其次，通过多次使用计数函数的方法统计各草地类型出现的频次，并对其进行排序，提取研究区最主要的草地类型。之后，分别计算每种草地类型的营养枝与生殖枝的高度，得出结果。最后，将本发明数据分析技术得到的结果与对照实验结果进行比对，发现两组处理结果相同。实验结果见图。因此，实验证明，基于Hive的数据分析技术可以从海量高寒草地生态数据中提取有效信息，分析效率较高，分析结果对于草地退化评价和草地生态保护等工作都具有较好的实用意义。

本发明实施例提供了一种高寒草地数据处理方法及管理系统，为解决采用高性能计算机或服务器进行海量高寒草地生态数据存储和分析所带来的成本较高，价格昂贵的问题，本发明使用廉价的普通计算机作为解决方案，通过在廉价的计算机集群上完成系统设计、节点配置、集群配置等步骤，从而搭建起基于Hadoop的分布式存储计算平台，以作为海量数据存储和分析的工具，解决了成本较高、价格昂贵的问题；为解决关系型数据库难以对海量数据进行存储和分析的问题，本发明采用分布式文件系统HDFS作为存储系统，使用Hive中的HiveQL语言对草地海量数据进行分析和数据挖掘，充分利用Hadoop分布式技术的优点，将存储和计算任务合理分配到集群节点上，解决现有技术手段难以进行海量数据存储和分析的问题，使运行效率比提高到原来提高了1/3。

以上对本发明实施例所提供的高寒草地数据处理方法及管理系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种高寒草地数据处理方法，其特征在于，包括以下步骤

将原始高寒草地数据导入至高寒草地数据管理系统；

对所述高寒草地数据主题表之间进行表关联处理。

2.如权利要求1所述的高寒草地数据处理方法，其特征在于，所述高寒草地数据处理方法还包括以下步骤：

搭建所述高寒草地数据管理平台。

3.如权利要求2所述的高寒草地数据处理方法，其特征在于，所述高寒草地数据处理方法还包括以下步骤：

基于用户需求进行高寒草地数据分析；

输出高寒草地数据分析结果。

4.如权利要求1所述的高寒草地数据处理方法，其特征在于，所述设计高寒草地数据主题表包括以下步骤，筛选所述高寒草地数据字段，筛选条件为：

是否为草地生态退化评价所需数据字段；

字段数据间是否具有关联性。

5.如权利要求4所述的高寒草地数据处理方法，其特征在于，所述高寒草地数据主题表包括监测站主题表、草地类型主题表、生物量主题表、气象主题表、水文主题表；每个主题表中具有多个字段。

6.如权利要求1所述的高寒草地数据处理方法，其特征在于，所述原始高寒草地数据包括历史高寒草地数据和实时高寒草地数据；

导入实时高寒草地数据。

7.如权利要求6所述的高寒草地数据处理方法，其特征在于，基于Sqoop工具将所述历史高寒草地数据从历史数据库导入至所述高寒草地数据Hadoop分布式文件系统。

8.如权利要求7所述的高寒草地数据处理方法，其特征在于，所述导入实时高寒草地数据包括以下步骤：

基于监测站站点采集实时高寒草地数据；

9.如权利要求1所述的高寒草地数据处理方法，其特征在于，所述导入初始高寒草地数据至高寒草地数据管理系统还包括以下步骤：

10.一种高寒草地数据管理系统，其特征在于，所述高寒草地数据管理系统包括

数据分析层：用于基于Hive从所述数据存储层中提取信息；

用户接口模块：用于与用户进行交互。