CN117272223A

CN117272223A - 基于大数据和遗传规划的泥石流多因子融合预测系统

Info

Publication number: CN117272223A
Application number: CN202311147374.1A
Authority: CN
Inventors: 孙浪; 顾璇; 于超; 毕致远; 张福清
Original assignee: Anhui Zhongke Guojin Intelligent Technology Co ltd
Current assignee: Anhui Zhongke Guojin Intelligent Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-22

Abstract

本发明公开了基于大数据和遗传规划的泥石流多因子融合预测系统，涉及泥石流预测技术领域，包括大数据平台和遗传规划模型单元，所述大数据平台包括数据收集单元，其用于针对多种不同数据源，采取不同的采集、下载、预处理；数据存储单元，其用于采用分布式文件系统HDFS、分布式数据库Hbase以及数据仓库Hive相结合的方式对不同的数据进行储存；该基于大数据和遗传规划的泥石流多因子融合预测系统，通过搭建大数据平台，解决数据源没有直接的数据下载接口的问题，采用分解方法和并行处理方法下载，提高数据下载处理速度实现快速采集，保证采集的时效性，且基于二叉树的遗传规划方法，更适用于处理大型、复杂的非线性问题，保证了泥石流预测的精度。

Description

基于大数据和遗传规划的泥石流多因子融合预测系统

技术领域

本发明涉及泥石流预测技术领域，具体涉及基于大数据和遗传规划的泥石流多因子融合预测系统。

背景技术

泥石流是山区多发频发突发的地质灾害之一，常给人民生命财产安全带来极大威胁，泥石流预警作为泥石流防治的有效手段，一直是研究机构和企业关注的焦点问题。多年来，针对降水在泥石流暴发中的触发作用公开了大量研究成果及工程实践经验。

有采用线性拟合、Logistics回归等方法建立了前期有效雨量、小时雨强、过程雨量等降雨指标的泥石流灾害临界预警表达式；也有采用人工神经网络建立了泥石流非线性预警模型，但预测精度在很大程度上依赖于使用者的经验与水平，限制了模型推广和应用；且对泥石流进行预测需要获取天气数据，如降雨量、土壤含水量等数据来源于全球预报系统，但该网站并未提供数据的直接下载接口，从欧洲航天局网站下载数据高程文件，需要用户登录网站，不方便自动化下载；且对于大数据量的文件的下载，现有系统下载速度不够高效，会对采集的数据的时效性有所影响。

发明内容

本发明的目的是提供基于大数据和遗传规划的泥石流多因子融合预测系统，以解决现有技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：基于大数据和遗传规划的泥石流多因子融合预测系统，包括大数据平台和遗传规划模型单元，所述大数据平台包括数据收集单元，其用于针对多种不同数据源，采取不同的采集、下载、预处理；数据存储单元，其用于采用分布式文件系统HDFS、分布式数据库Hbase以及数据仓库Hive相结合的方式对不同的数据进行储存；Yarn分布式管理系统，其用于管理集群利用率、资源统一和数据共享；协调单元，其用于进行应用程序协调，封装复杂易出错的关键服务，为用户提供稳定的系统；数据计算分析使用内存计算单元，其用于使用Spark的内存计算框架和Hadoop的MapReduce计算模型进行分析计算；遗传规划模型单元包括样本库模块，其用于以地区为限制，建立历史泥石流样本库，所述样本库样本分为学习样本和测试样本；算法模型模块，其用于以学习样本为基础，根据泥石流影响因子的特征，建立泥石流综合预测模型；验证模块，其用于将测试样本带入建好的模型，得到预测的临界降雨指数，并根据其进行预警。

进一步的，所述数据收集单元针对不同数据源，采取不同的采集方法，包括采取爬虫、程序模拟，针对大数据量文件采集，采用分解方法和并行处理方法进行下载，针对原始数据格式复杂多样，采用不同的预处理方法。

进一步的，所述分布式文件系统HDFS为分布式数据库HBase提供底层存储支持，分布式文件系统HDFS用于保存顺序读取的海量数据，分布式数据库HBase用于存储快速随机访问数据；所述协调单元采用Zookeeper。

进一步的，算法模型模块采用非线性适应度函数，具体是计算预测值与实际值之间误差减去整体预测值与实际值的平均绝对误差，最后得到的值为适应度，计算公式如下：

其中，是预测值，y_i是真实值。

进一步的，所述样本库模块以遥感解译、历史地面调查为手段，获取历史泥石流地质因子，收集泥石流沟域内历史雨量站数据，建立以地质因子为自变量，以小时雨强、当日雨量为因变量的历史泥石流样本库，所述地质因子包括流域面积、松散物质比率、沟床平均坡度。

进一步的，所述算法模型模块通过确定函数集和终止符集，设定遗传规划进化参数，初始群体产生方法、群体规模、交换概率、突变概率、选择方法、最大允许代次、最大突变深度以及终止准则，进行寻优搜索，满足终止准则后，输出临界降雨因子与地质因子之间的非线性函数表达式。

进一步的，所述大数据平台由两台物理服务器和八台虚拟服务器搭建构成。

进一步的，八台所述虚拟服务器包括两台主节点，五台从节点和一台Ambari服务器；两台所述主节点作为HDFS、Hive和HBase的master，在五台从节点中，有两台从节点作为Yarn分布式管理系统的主机点，剩下三台从节点作为数据节点DataNode，并在三台所述从节点上搭建Zookeeper集群。

进一步的，在所述Hadoop上搭建Spark集群，在两台主节点上搭建Spark主节点，在五台从节点上搭建SparkWorker。

1、与现有技术相比，本发明提供的基于大数据和遗传规划的泥石流多因子融合预测系统，通过搭建大数据平台，从不同外部系统中采集泥石流的多源异构数据，针对不同数据源，采取爬虫、程序模拟等不同的采集方法获取相关数据，解决数据源没有直接的数据下载接口的问题，且针对大数据量文件采集，采用分解方法和并行处理方法下载，提高数据下载处理速度实现快速采集，保证采集的时效性，且对于数据格式复杂多样的原始数据采用不同的预测处理方法，以高效的储存泥石流灾害的多源异构数据，并进行大数据计算处理，使得数据采集更加便捷高效。

2、与现有技术相比，本发明提供的基于大数据和遗传规划的泥石流多因子融合预测系统，通过在历史泥石流地质因子和降雨数据分析的基础上，采用遗传规划建立地质因子与关键降雨因子之间非线性函数关系，输出泥石流预测二叉树模型，实现不同地质环境背景下的泥石流预测，并通过将测试样本带入建好的模型，得到预测的临界降雨指数，并与实际临界降雨指数作比较，调校出高预测精度的计算模型，保证了泥石流预测的精度，且基于二叉树的遗传规划方法，仿照生物界进化过程，采用复杂多变的树状结构表达多变量之间线性或非线性数学关系，更适用于处理大型、复杂的非线性问题，为解决类似非线性问题提供了技术参考。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的泥石流多源异构数据来源表；

图2为本发明实施例提供的大数据平台总体架构示意图；

图3为本发明实施例提供的物理服务器环境说明示意图；

图4为本发明实施例提供的大数据平台拓扑架构设计示意图；

图5为本发明实施例提供的基于遗传规划的泥石流多因子融合预测方法流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

在本发明的描述中，需要理解的是，术语"中心"、"纵向"、"横向"、"长度"、"宽度"、"厚度"、"上"、"下"、"前"、"后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"、"顺时针"、"逆时针"等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，"多个"的含义是两个或两个以上，除非另有明确具体的限定。此外，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1-图5，基于大数据和遗传规划的泥石流多因子融合预测系统，包括大数据平台、遗传规划模型单元；

搭建大数据平台：

因为泥石流灾害受众多影响因素共同作用，需根据其影响因素从不同外部系统中采集泥石流的多源异构数据，其中多源异构数据的类型包括降雨量、地表温度、土壤含水量、地表覆盖类型、地层岩性、地质构造、植被覆盖指数、坡度、高程、与水系距离、与道路距离、与建筑物距离；数据来源可分别为全球预报系统、全球地理信息公共产品GLOBELAND30网站、全国地质资料馆、欧洲中期天气预报中心网站ERA5、欧航局地球数据网站、数据高程文件、全国水系地图、全国铁路地图、全国道路地图、百度地图、天地图，具体请参照图1，大数据平台包括数据收集单元、数据储存单元、Yarn分布式管理系统、协调单元、内存计算单元。

从图1可知泥石流数据来源复杂，对其进行数据采集需要使用不同的解决方法：

(1)多种不同数据源

数据收集单元针对不同数据源，采取不同的采集方法。例如，降雨量、土壤含水量等数据来源于全球预报系统，但该网站并未提供数据的直接下载接口，可以采用编写爬虫程序来获取相应的数据，具体爬虫程序为现有技术下的公知常识，且在此作无更改直接应用，因此在该技术方案中不做具体赘述，且基于本领域下不会对该技术方案造成困扰。除此之外，从欧洲航天局网站下载数据高程文件，需要用户登录网站，为实现自动化的数据采集，使用程序模拟用户登录该网站，并从网站上下载指定区域的数字高程文件。

(2)大数据量文件下载

数据收集单元针对大数据量文件采集，采用分解方法和并行处理方法下载。由于铁路区域泥石流的监测范围较大，对多个泥石流监测区域进行同步数据采集，需要采用多线程并行化方法来下载数据文件，同时，针对大数据量文件的下载，可以在服务端将大数据量文件拆分为多个小文件，然后进行并行化下载，以提高文件下载处理速度，从而实现数据的快速采集，提高数据采集的时效性。

(3)数据格式复杂多样

数据收集单元针对原始数据格式复杂多样，采用不同的预处理方法。从外部系统采集到的数据具有复杂多样的数据格式。例如，气象数据文件为grib压缩数据格式，需要使用Python的cfgrib数据解析包，对grib文件进行转码，存储为可读取文件格式，再使用正则表达式从中提取所需数据，数据高程文件为tif图像格式文件，使用Python的gdal包进行数据解析，并存入Numpy矩阵，获取到每个点的数值数据，再通过数据文件的经纬度范围以及精度定位具体经纬度点，进行数据提取。

为高效存储泥石流灾害的多源异构数据，并进行大数据计算处理等问题。本系统综合Hadoop和Spark两种框架的优势来搭建大数据平台，为系统提供运行环境，大数据平台的具体软件架构请参照图2。

大数据平台的数据源包括结构化数据、非结构化数据和半结构化数据，因此数据存储单元采用分布式文件系统HDFS、分布式数据库Hbase以及数据仓库Hive相结合的方式对不同的数据进行储存。其中，HDFS为HBase提供高可靠性的底层存储支持，HDFS主要保存顺序读取的海量数据，而HBase主要存储快速随机访问数据。两者组合使用，可以提高数据的随机查询性能。Yarn分布式管理系统主要进行管理集群利用率、资源统一和数据共享等。

协调单元采用Zookeeper主要进行应用程序协调，封装复杂易出错的关键服务，为用户提供稳定的系统。数据计算分析使用内存计算单元的Spark的内存计算框架和Hadoop的MapReduce计算模型。

大数据平台由两台物理服务器提供基础设施，其环境说明可参照图3，在图3的物理服务器基础上，使用VMware虚拟化软件创建8台虚拟服务器，来搭建的大数据存储与分析平台，整个的平台拓扑架构设计如图4所示：

整个大数据平台由8台虚拟服务器组成，包括2台主节点以及5台从节点，1台Ambari服务器。其中，2台主节点作为HDFS、Hive以及HBase的master(主节点)。在5台从节点中，有2台从节点作为Yarn分布式管理系统的主机点，剩下3台从节点作为数据节点DataNode，并在此3台节点上搭建Zookeeper集群。除此之外，还需要在Hadoop平台上搭建Spark集群，在2台主节点上搭建Spark主节点，在5台从节点上搭建SparkWorker。

遗传规划模型单元，在遗传规划模型单元内构建遗传规划模型：

在某地区的历史泥石流地质因子和降雨数据分析的基础上，采用遗传规划建立地质因子与关键降雨因子之间非线性函数关系，输出泥石流预测二叉树模型，实现不同地质环境背景下的泥石流预测，例如，对安徽省的历史泥石流地质因子和降雨数据进行分析，具体流程如下，请参照图5：

(1)充分搜集安徽省历史泥石流灾害事件，以遥感解译，历史地面调查为手段，获取历史泥石流地质环境背景因子(即地质因子)，收集泥石流沟域内历史雨量站数据，建立以流域面积、松散物质比率、沟床平均坡度等地质因子为自变量，以小时雨强、当日雨量为因变量的历史泥石流样本库，并将样本库样本分为学习样本和测试样本，并将样本库储存入样本库模块。

(2)遗传规划模型的建立以学习样本为基础，根据泥石流影响因子的特征，确定函数集和终止符集，函数集F可以从运算符或函数符中选择F＝(+，×，/，sin，cos，log，exp)，终止符集可选择变量X，Y，Z或常数。设定遗传规划进化参数，初始群体产生方法、群体规模、交换概率、突变概率、选择方法、最大允许代次、最大突变深度、以及终止准则等。遗传规划程序开始寻优搜索，满足终止准则后，输出临界降雨因子与地质因子之间的非线性函数表达式，建立泥石流综合预测模型，并将泥石流综合预测模型储存入算法模型模块；

可用Gen代表种群，Gen＝0代表初始化种群，自增变量j代表种群代号，pr.M、pc.M、pm.M表示各个种群的适应度，进行寻优搜索前首先计算全体中各个体适应度。个体适应度一般采用适应度函数，用于衡量个体的适应性，从而指导选择、交义和变异等操作，进而实现优化目标的达成。适应度函数的设计质量直接关系到遗传算法的优化效果，设计好的适应度函数应该具有明确的优化目标、区分度高、可计算性和可调节性等特点。常见的适应度函数类型包括线性适应度函数、指数适应度函数、非线性适应度函数和约束适应度函数等，本文计算适应度采用非线性适应度函数，具体是计算预测值与实际值之间误差减去整体预测值与实际值的平均绝对误差，最后得到的值为适应度。计算公式如下：

其中，是预测值，y_i是真实值。

然后依次执行以下步骤：

a、a1、将j:＝0；a2、根据适应度选择复制个体；a3、执行复制；a4、将复制结果添入新群体中；a5、j＝j+1；a6、判断j＝pr.M？，是则输出，否则返回到a2。

b、b1、将j:＝0；b2、根据适应度选择两个交换个体；b3、执行交换；b4、将交换后的两个新个体添入新群体中；b5、j＝j+1；a6、判断j＝pc.M？，是则输出，否则返回到b2。

c、c1、将j:＝0；c2、选择突变个体；b3、执行突变；b4、将突变结果添入新群体中；b5、j＝j+1；a6、判断j＝pm.M？，是则输出，否则返回到b2。

然后将a、b、c中输出结果输入Gen＝Gen+1，判断是否满足终止条件，是则输出最佳遗传树，否则重新计算全体中各个体适应度，再依次执行a、b、c，请参照图5。

(3)采用验证模块，对模型进行验证与应用

将测试样本带入建好的模型，得到预测的临界降雨指数，并与实际临界降雨指数作比较，使用预测模型对测试样本或地质因子数据进行训练，然后计算模型的预测精度，这个预测精度是计算整个已经训练出的预测模型的预测精度，当预测精度达到要求，例如预测差值在8％以内，则整个预测模型合理的、可实际应用的。那么将地质因子数据代入模型进行临界降雨指数的预测，保证了预测的精度。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：包括大数据平台和遗传规划模型单元，所述大数据平台包括数据收集单元，其用于针对多种不同数据源，采取不同的采集、下载、预处理；

数据存储单元，其用于采用分布式文件系统HDFS、分布式数据库Hbase以及数据仓库Hive相结合的方式对不同的数据进行储存；

Yarn分布式管理系统，其用于管理集群利用率、资源统一和数据共享；

协调单元，其用于进行应用程序协调，封装复杂易出错的关键服务，为用户提供稳定的系统；

数据计算分析使用内存计算单元，其用于使用Spark的内存计算框架和Hadoop的MapReduce计算模型进行分析计算；

遗传规划模型单元包括样本库模块，其用于以地区为限制，建立历史泥石流样本库，所述样本库样本分为学习样本和测试样本；

算法模型模块，其用于以学习样本为基础，根据泥石流影响因子的特征，建立泥石流综合预测模型；

验证模块，其用于将测试样本带入建好的模型，得到预测的临界降雨指数，并根据其进行预警。

2.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述数据收集单元针对不同数据源，采取不同的采集方法，包括采取爬虫、程序模拟，针对大数据量文件采集，采用分解方法和并行处理方法进行下载，针对原始数据格式复杂多样，采用不同的预处理方法。

3.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述分布式文件系统HDFS为分布式数据库HBase提供底层存储支持，分布式文件系统HDFS用于保存顺序读取的海量数据，分布式数据库HBase用于存储快速随机访问数据；所述协调单元采用Zookeeper。

4.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述算法模型模块采用非线性适应度函数，具体是计算预测值与实际值之间误差减去整体预测值与实际值的平均绝对误差，最后得到的值为适应度，计算公式如下：

其中，是预测值，y_i是真实值。

5.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述样本库模块以遥感解译、历史地面调查为手段，获取历史泥石流地质因子，收集泥石流沟域内历史雨量站数据，建立以地质因子为自变量，以小时雨强、当日雨量为因变量的历史泥石流样本库，所述地质因子包括流域面积、松散物质比率、沟床平均坡度。

6.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述算法模型模块通过确定函数集和终止符集，设定遗传规划进化参数，初始群体产生方法、群体规模、交换概率、突变概率、选择方法、最大允许代次、最大突变深度以及终止准则，进行寻优搜索，满足终止准则后，输出临界降雨因子与地质因子之间的非线性函数表达式。

7.根据权利要求1所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：所述大数据平台由两台物理服务器和八台虚拟服务器搭建构成。

8.根据权利要求7所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：八台所述虚拟服务器包括两台主节点，五台从节点和一台Ambari服务器；

两台所述主节点作为HDFS、Hive和HBase的master，在五台从节点中，有两台从节点作为Yarn分布式管理系统的主机点，剩下三台从节点作为数据节点DataNode，并在三台所述从节点上搭建Zookeeper集群。

9.根据权利要求8所述的基于大数据和遗传规划的泥石流多因子融合预测系统，其特征在于：在所述Hadoop上搭建Spark集群，在两台主节点上搭建Spark主节点，在五台从节点上搭建SparkWorker。