CN115358354A - 一种降雨空间数据复原和重构的方法 - Google Patents

一种降雨空间数据复原和重构的方法 Download PDF

Info

Publication number
CN115358354A
CN115358354A CN202211298864.7A CN202211298864A CN115358354A CN 115358354 A CN115358354 A CN 115358354A CN 202211298864 A CN202211298864 A CN 202211298864A CN 115358354 A CN115358354 A CN 115358354A
Authority
CN
China
Prior art keywords
rainfall
space
dimension
data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211298864.7A
Other languages
English (en)
Inventor
刘媛媛
刘业森
刘方华
王强
王聪
刘舒
姚建国
任汉承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Original Assignee
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN202211298864.7A priority Critical patent/CN115358354A/zh
Publication of CN115358354A publication Critical patent/CN115358354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种降雨空间数据复原和重构的方法,包括获取近期短间隔的降雨资料,还包括以下步骤:对近期短间隔的降雨资料进行数字化和结构化,从时间维度和空间维度构造暴雨时空分布动态矩阵;通过ISOMAP算法对暴雨时空分布动态矩阵进行降维;通过动态聚类方法对降维后的降雨时空分布特征进行分类;提取挖掘各类暴雨精细化时空分布特征;基于提取精细化特征,对历史长历时降雨空间资料进行复原和重构。本发明将暴雨过程进行数字化和结构化,从时间维度和空间维度构造高维数组,通过ISOMAP算法进行降维,对降维后的降雨时空分布特征进行分类,提取挖掘各类暴雨精细化时空分布特征,最后基于提取精细化特征,对历史长历时降雨空间资料进行复原和重构。

Description

一种降雨空间数据复原和重构的方法
技术领域
本发明涉及降雨数据处理的技术领域,特别是一种降雨空间数据复原和重构的方法。
背景技术
近几年,随着全球气候变化,极端暴雨出现的频次逐年增多,极端暴雨带来的洪涝灾害也逐年增加。极端暴雨出现在城市,会给城市带来严重的洪涝灾害,极端暴雨出现在山区,会形成山洪灾害。为了应对极端暴雨带来的影响,最大限度的降低极端大暴雨带来的灾害,除了提高防洪工程标准之外,还需要加强暴雨风险精细化管理。
暴雨风险精细化管理中最重要的环节是提前预知、预判暴雨精细化特征,以帮助识别暴雨可能引发的风险,进而提醒人民避免或减少洪涝高风险的地区的活动,从而降低洪涝造成的灾害和损失。因此,需要在历史观测资料基础上总结暴雨的时空分布精细化特征,根据历史规律提前预测降雨的动态发展趋势,并建立有针对性的应急管理预案,可为合理部署救援力量和快速调度救灾物资提供科学参考。而极端暴雨的降雨时空不均匀以及不确定性,是影响洪涝过程的评估预测、影响洪涝风险精细化管理的主要短板之一。
对降雨精细化时空规律的提取和总结,完全依赖于降雨观测资料的数量和质量,观测资料直接影响降雨特征的提取和重构。观测资料时间序列越长、降雨数据间隔越短、观测站点分布越密集,总结的规律越精细,反之,则相反。长间隔的降雨资料,不能反应降雨在短时间内精细化的时空变化规律,而城市洪涝风险精细化管理迫切需要短间隔、精细化的降雨特征。
因此,将宝贵的历史长间隔的降雨空间资料有效的利用起来,使得历史的长间隔(逐24h、逐12h、逐6h等)降雨观测资料也可以反应出降雨短间隔(如逐1h、逐30min等)时空特征,以充实、扩充短间隔降雨学习样本库,为提取降雨时空分布进行特征提供更丰富的学习样本库,是当前需要迫切解决的主要问题。
2019年6月第50卷第60期的《水利学报》公开了刘媛媛、刘洪伟、霍风霖和刘业森的题目为《基于机器学习短历时暴雨时空分布规律研究》的文章,该文章提出:城市内涝风险的精细化管理和防洪排涝市政工程的科学设计,需要对当地降雨的时空分布特征有深入的了
解。而传统以单站雨型代表整个区域降雨特征的分析方法,不能满足这一要求。本文尝试将机器算法引入到暴雨时空分布特征研究中,以北京城区2004—2016年降雨资料为研究样本,利用动态聚类算法,提取北京城区短历时暴雨时空分布的动态特征。经分析,北京汛期的短历时暴雨时空分布特征,可以分为3种类型:(1)降雨自西北部山区移动到城中心区,逐渐扩散到城区;(2)降雨集中在城区西南部地区,逐渐向北部和城中心区扩散;(3)降雨集中在城区中心区和东部地区,基本不发生移动。研究结果表明,基于机器学习算法提取的暴雨时空分布特征,与实际暴雨时空动态发展趋势相符,并且有各自对应的降雨形成的不同物理机制,可为城区降雨设计、城市内涝风险管理等工作提供借鉴与参考。该方法的缺点是对数据数量和质量的要求比较高,需要大量的历史降雨资料进行学习和训练以提取时空特征,而且需要降雨资料的颗粒度比较小,如需要逐分钟级的降雨资料。而由于历史原因,大量的历史降雨资料,都是逐日、逐月等,颗粒度比较大的资料,这就限制了该方法的进一步推广和应用。
2010年第3期的《计算机学报》公开了孟德宇、徐晨和徐宗本的题目为《基于Isomap的流形结构重建方法》的文章,该文章提出:已有的流形学习方法仅能建立点对点的降维嵌入,而未建立高维数据流形空间与低维表示空间之间的相互映射。此缺陷已限制了流形学习方法在诸多数据挖掘问题中的进一步应用。针对这一问题,文中提出了两种新型高效的流形结构重建算法:快速算法与稳健算法。其均以经典的Isomap方法内在运行机理为出发点,进而推导出高维流形空间与低维表示空间之间双向的显式映射函数关系,基于此函数即可实现流形映射的有效重建。理论分析与实验结果证明,所提算法在计算速度,噪音敏感性,映射表现等方面相对已有方法具有明显优势。该方法当前主要应用在图像处理和人脸识别上,表现出了明显的优势。但在其他方面并没有得到应用,尤其是在大尺度的空间监测数据的处理上。
发明内容
为了解决上述的技术问题,本发明提出的一种基于流形学习重构降雨空间数据的方法,首先将暴雨过程(近期短间隔的降雨资料)进行数字化和结构化,从时间维度和空间维度构造高维数组,再通过ISOMAP算法进行降维。通过机器学习中的动态聚类方法,对降维后的降雨时空分布特征进行分类,再提取挖掘各类暴雨精细化时空分布特征,最后基于提取精细化特征,对历史中长历时降雨空间资料进行复原和重构。
本发明的目的是提供一种降雨空间数据复原和重构的方法,包括获取近期短间隔的降雨资料,还包括以下步骤:
步骤1:对所述近期短间隔的降雨资料进行数字化和结构化处理,从时间维度和空间维度构造暴雨时空分布动态矩阵;
步骤2:对所述暴雨时空分布动态矩阵进行降维;
步骤3:对降维后的降雨时空分布特征进行分类;
步骤4:提取挖掘各类暴雨精细化时空分布特征;
步骤5:基于提取的精细化时空分布特征,对历史长历时降雨空间资料进行复原和重构。
优选的是,所述步骤1包括对不同历时的各场次降雨,构建时间维度和空间维度占比矩阵,用雨量占比的矩阵来描述某个时段降雨的分布特征。
在上述任一方案中优选的是,所述步骤1还包括建立降雨过程样本集Ω,实现多场次降雨的时空动态发展特征的数学描述,公式如下
Figure 811012DEST_PATH_IMAGE001
Figure 241993DEST_PATH_IMAGE002
其中,Ω包括N场暴雨,x j 为第j次降雨的占比矩阵,
Figure 588530DEST_PATH_IMAGE003
j次降雨过程中第i个雨量 站t时刻的降雨量占该时刻所有站降雨量的百分比,s为雨量站数,m为总时刻数。
在上述任一方案中优选的是,所述j次降雨过程中第i个雨量站t时刻的降雨量占该时刻所有站降雨量的百分比的公式为
Figure 421357DEST_PATH_IMAGE004
其中,
Figure 313089DEST_PATH_IMAGE005
为第j次降雨过程中,第i雨量站t时刻的降雨量,i=1,2,3…st=1,2,3…m
在上述任一方案中优选的是,所述步骤2包括以下子步骤:
步骤21:确定在流形M上的邻域点,构造近邻图;
步骤22:采用计算最短路径d G (p,q)的方法近似估计流形M 上的测地线距离d M (p,q);
步骤23:使用经典CMDS 将样本向量压缩到d 维,并使压缩后样本向量之间的欧式距离尽可能接近已求出的最短路径。
在上述任一方案中优选的是,所述步骤21包括设定输入空间X 的任意两个样本向量x p x q 的欧式距离为d E (p,q),然后用全部的样本向量x k (1≤kN)构造有权图G。
在上述任一方案中优选的是,所所述步骤22包括设任意两个样本向量 x p x q 之间的最短距离为d G (p,q),如果x p x q 之间存在连线,则初始化d G (p,q) =d E (p,q),否则令d G (p,q)= ∞。
在上述任一方案中优选的是,所述步骤22还包括更新d G (p,q)的数值,对于k = 1,2,3,…N ,令d G (p,q)= min{ d G (p,q),d G (p,k)+ d G (p,k+1)} ,经过多次迭代,样本向量间最短路径矩阵D G ={d G (p,q)}收敛。
在上述任一方案中优选的是,所述步骤23包括设矩阵τ(D G )的前d个特征值λ 1λ 2λ 3 ≥…≥ λ d对应的特征向量为 v 1 ,v 2 ,v 3 , …,v d ,λp 是第p个特征值,
Figure 231367DEST_PATH_IMAGE006
λp对应 的特征向量的第m个分量,则d维嵌入向量y i 的第p个分量等于
Figure 148638DEST_PATH_IMAGE007
,高维空间中各点在 低维空间中的嵌入坐标Y ,表示为:
Figure 570393DEST_PATH_IMAGE008
在上述任一方案中优选的是,所述动态聚类的计算方法包括以下子步骤:
步骤31:分析的样本集为Φ={Y 1Y 2,…,Y N },Y为低维空间中的映射点,M为最大迭 代次数,r为初始划分的子集数,C={C 1C 2,…,C r }为r个子集,其中,初始时
Figure 898606DEST_PATH_IMAGE009
jj=1, 2,…rr<N
步骤32:从Φ中随机选取r个样本,作为初始r个子集的各中心向量
Figure 38600DEST_PATH_IMAGE010
步骤33:对于n=1,2,……N,计算样本Y ii 与每个聚类中心Z jj ={z 1z 2,……z r }的距 离
Figure 992518DEST_PATH_IMAGE011
,如果d iijj =min{d iijj },ii=1,2,…N,则
Figure 268779DEST_PATH_IMAGE012
,更新
Figure 33473DEST_PATH_IMAGE013
, 其中,
Figure 660763DEST_PATH_IMAGE014
步骤34:对于jj=1,2,…r,对C jj 中的所有样本点,重新计算中心向量
Figure 654258DEST_PATH_IMAGE015
步骤35:不断重复迭代,如果
Figure 50604DEST_PATH_IMAGE016
j=1,2,……r,则重新执行步骤32,重复 迭代计算,如果
Figure 720620DEST_PATH_IMAGE017
j=1,2,……r,运算结束;
步骤36:输出各子集C={C 1C 2,…,C r },属于各子集的样本
Figure 835207DEST_PATH_IMAGE018
以及 各子集的均
Figure 865348DEST_PATH_IMAGE019
,其中,o为各子集里样本的个数。
在上述任一方案中优选的是,所述步骤5包括在低维空间中的各子集C={C 1C 2,…,C r }中的样本,在高维空间中,也分别属于同一子集,B={B 1B 2,…,B r },在高维空间中求各子 集的均值
Figure 381780DEST_PATH_IMAGE020
,为高维空间中各类的聚类中心,即为属于该类样本的 动态时空分布特征。
本发明提出了一种降雨空间数据复原和重构的方法,将AI技术中的流形学习算法有效的引入到历史降雨空间数据的修补、复原和重构中,可将宝贵的历史降雨资料有效的利用起来,有效的扩充和完善了短间隔降雨空间数据,为地区降雨精细化时空特征分析和提取提供了更为丰富和合理的训练样本,为人工智能技术在防洪减灾方向的应用提供了新思路。
附图说明
图1为按照本发明的降雨空间数据复原和重构的方法的一优选实施例的流程图。
图2为按照本发明的降雨空间数据复原和重构的方法的另一优选实施例的技术流程图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,获取近期短间隔的降雨资料。
执行步骤110,对所述近期短间隔的降雨资料进行数字化和结构化处理,从时间维度和空间维度构造暴雨时空分布动态矩阵。对不同历时的各场次降雨,构建时间维度和空间维度占比矩阵,用雨量占比的矩阵来描述某个时段降雨的分布特征。建立降雨过程样本集Ω,实现多场次降雨的时空动态发展特征的数学描述,公式如下
Figure 222697DEST_PATH_IMAGE021
Figure 824580DEST_PATH_IMAGE022
其中,Ω包括N场暴雨,x j 为第j次降雨的占比矩阵,
Figure 159878DEST_PATH_IMAGE003
j次降雨过程中第i个雨量 站t时刻的降雨量占该时刻所有站降雨量的百分比,s为雨量站数,m为总时刻数。所述j次降 雨过程中第i个雨量站t时刻的降雨量占该时刻所有站降雨量的百分比的公式为
Figure 530816DEST_PATH_IMAGE023
其中,
Figure 542634DEST_PATH_IMAGE024
为第j次降雨过程中,第i雨量站t时刻的降雨量,i=1,2,3…st=1,2,3…m
执行步骤120,对所述暴雨时空分布动态矩阵进行降维,包括以下子步骤:
执行步骤121,确定在流形M上的邻域点,构造近邻图,设定输入空间X 的任意两个样本向量x p x q 的欧式距离为d E (p,q),然后用全部的样本向量x k (1≤kN)构造有权图G。
执行步骤122,采用计算最短路径d G (p,q)的方法近似估计流形M 上的测地线距离d M (p,q),所述步骤22包括设任意两个样本向量 x p x q 之间的最短距离为d G (p,q),如果x p x q 之间存在连线,则初始化d G (p,q) =d E (p,q),否则令d G (p,q)= ∞。更新d G (p,q)的数值,对于k = 1,2,3,…N ,令d G (p,q)= min{ d G (p,q),d G (p,k)+ d G (p,k+1)} ,经过多次迭代,样本向量间最短路径矩阵D G ={d G (p,q)}收敛。
执行步骤123,使用经典CMDS 将样本向量压缩到d 维,并使压缩后样本向量之间 的欧式距离尽可能接近已求出的最短路径。设矩阵τ(D G )的前d个特征值λ 1λ 2λ 3 ≥…≥ λ d对应的特征向量为 v 1 ,v 2 ,v 3 , …,v d ,λp 是第p个特征值,
Figure 366234DEST_PATH_IMAGE006
λp对应的特征向 量的第m个分量,则d维嵌入向量y i 的第p个分量等于
Figure 3757DEST_PATH_IMAGE025
,高维空间中各点在低维空间 中的嵌入坐标Y ,表示为:
Figure 432465DEST_PATH_IMAGE026
执行步骤130,对降维后的降雨时空分布特征进行分类,包括以下子步骤:
执行步骤131,分析的样本集为Φ={Y 1Y 2,…,Y N },Y为低维空间中的映射点,M为最 大迭代次数,r为初始划分的子集数,C={C 1C 2,…,C r }为r个子集,其中,初始时
Figure 615184DEST_PATH_IMAGE009
jj =1,2,…rr<N
执行步骤132,从Φ中随机选取r个样本,作为初始r个子集的各中心向量
Figure 191659DEST_PATH_IMAGE010
执行步骤133,对于n=1,2,……N,计算样本Y ii 与每个聚类中心Z jj ={z 1z 2,……z r } 的距离
Figure 118027DEST_PATH_IMAGE027
,如果d iijj =min{d iijj },ii=1,2,…N,则
Figure 948711DEST_PATH_IMAGE028
,更新
Figure 567911DEST_PATH_IMAGE013
,其中,
Figure 366103DEST_PATH_IMAGE014
执行步骤134,对于jj=1,2,…r,对C jj 中的所有样本点,重新计算中心向量
Figure 96161DEST_PATH_IMAGE029
执行步骤135,不断重复迭代,如果
Figure 303324DEST_PATH_IMAGE016
j=1,2,……r,则重新执行步骤 132,重复迭代计算,如果
Figure 93426DEST_PATH_IMAGE017
j=1,2,……r,运算结束。
执行步骤136,输出各子集C={C 1C 2,…,C r },属于各子集的样本
Figure 378914DEST_PATH_IMAGE030
以及各子集的均
Figure 912663DEST_PATH_IMAGE019
,其中,o为各子集里样本的个数。
执行步骤140,提取挖掘各类暴雨精细化时空分布特征。
执行步骤150,基于提取的精细化时空分布特征,对历史长历时降雨空间资料进行 复原和重构。在低维空间中的各子集C={C 1C 2,…,C r }中的样本,在高维空间中,也分别属于 同一子集,B={B 1B 2,…,B r },在高维空间中求各子集的均值
Figure 717939DEST_PATH_IMAGE031
,为高 维空间中各类的聚类中心,即为属于该类样本的动态时空分布特征。
实施例二
本发明适用于历史长间隔降雨资料数据的处理和雨量站点分布较为稀疏地区的降雨数据的处理。虽然重建结果具有随机性和不确定性,但是它们能在已知该地区降雨时空分布特征的基础上,对历史长间隔降雨空间资料进行修补、复原和重构,使得历史长历时降雨数据可客观、合理的反应出短间隔降雨过程的的时空变化特征,从而进一步充实、扩充短间隔、短历时的降雨资料样本库,提高降雨空间数据的颗粒度,对于该地区短历时降雨精细特征的提取,具有一定实际意义。
通过本发明,利用Isomaps的空间数据重建方法,对历史长间隔的降雨观测资料进行扩充、修补和完善,使得历史长间隔的降雨观测资料可以得到有效、充分的利用,扩充了降雨时空分布特征提取和学习的样本库,提高了降雨空间数据的颗粒度,并进一步增强了降雨时空特征,以实现降雨时空分布精细化特征的有效、合理的提取和总结
1、技术流程
本发明的技术流程如图2所示。
传统处理降雨空间资料的方法,主要利用曲线拟合、线性插值等分配方法,把逐6h、逐12h或逐24h长间隔的降雨资料分配到逐1h、逐30min等短间隔中,但是这种曲线拟合分配降雨量的方式,依据不足,主观影响因素大。
随着机器学习技术的发展,这种基于数据本身驱动的方法,应用越来越广泛。本发明就是把机器学习中的流形学习算法应用到降雨空间资料的重构、修补和完善中,通过分析近期短间隔降雨的雨型特征,对历史长间隔逐6h、逐12h以及逐24h的降雨资料进行插补和复原,使得历史长间隔的降雨资料也可以反应出降雨的短间隔精细化时空变化特征。同时,利用该方法插补和复原的历史长间隔降雨数据,也是对短间隔降雨资料的扩充和特征增强。
经分析计算,基于该算法重构和还原的历史长间隔降雨数据,可以客观合理的反应出当时降雨精细化的时空分布特征。经过该算法修补和还原的历史降雨资料,可以为降雨时空分布精细特征提取的学习样本,以实现降雨时空分布精细化特征的提取和总结。
2、主要内容
机器学习其主要的工作就是通过算法提取海量数据样本的主要特征,根据学习到的规律,预测未来。本方法主要包括5部分内容:建立短间隔降雨空间特征模式库、模式的降维、模式的分类、模式的提取、模式重构。
本方法首先将暴雨过程(近期短间隔的降雨资料)进行数字化和结构化,从时间维度和空间维度构造高维数组,再通过ISOMAP算法进行降维。通过机器学习中的动态聚类方法,对降维后的降雨时空分布特征进行分类,再提取挖掘各类暴雨精细化时空分布特征,最后基于提取精细化特征,对历史长历时降雨空间资料进行重构。
描述暴雨时空分布精细化特征的样本为高维样本,直接对其动态聚类分析,分类结果合理性较差且计算量大。因此本发明采用流形学习中的Isomap(Isometric Mapping,Isomap)等度量映射算法,首先对高维样本进行降维运算,将高维空间中的样本映射到低维空间中,再对映射到低维空间中的样本进行动态聚类分析;最后通过提取高维空间中各类样本的中心,从而获得各类降雨的时空分布特征。
具体流程如下:
(1)构建暴雨时空分布动态特征矩阵
本方法的目的是要描述暴雨中心的动态移动过程,也就是在降雨过程中,每个时段降雨的分布形态。为了让不同降雨过程的动态特征可相互比较,本方法定义了雨量占比这一指标作为研究对象,雨量占比定义为某时段各单站的降雨量占研究范围内所有站降雨量的百分比。之所以采用雨量占比作为研究对象,而不是用降雨量作为研究对象,是因为不同过程的降雨量可能存在较大差异,使得其特征的比较变得更为困难。
对不同历时的各场次降雨,构建时间维度和空间维度占比矩阵,用雨量占比的矩阵来描述某个时段降雨的分布特征。历史暴雨样本集中就有N场雨,那就有N个这样的高维矩阵。基于该方法,建立降雨过程样本集Ω,实现了多场次降雨的时空动态发展特征的数学描述,见式1、式2。
Figure 678942DEST_PATH_IMAGE021
(1)
Figure 186147DEST_PATH_IMAGE022
(2)
式中,Ω为历史暴雨样本集,包括N场暴雨。其中,x j 为第j次降雨的占比矩阵,s为 雨量站数,m为总时刻数,
Figure 258008DEST_PATH_IMAGE003
j次降雨过程中,第i个雨量站t时刻的降雨量占该时刻所有 站降雨量的百分比,即
Figure 681905DEST_PATH_IMAGE032
(3)
式中,
Figure 548230DEST_PATH_IMAGE033
为第j次降雨过程中,第i雨量站t时刻的降雨量,i=1,2,3…s,t=1,2,3… m,s为雨量站个数,m为时段数。
(2)基于Isomap算法的降维分析
降维是指将原始数据由维数较少的“有效”特征数据来表示,在不减少原始数据所包含的内在信息量的基础上,提取原始数据的主要特征。通过降维,可有效的提高分析效率,提高分析结果的准确性。描述暴雨时空分布特征的高维数据样本库,是非线性高维数据空间,故本文利用针对非线性数据降维算法——Isomap算法,对该高维数据进行非线性降维分析。
Isomap算法是 Joshua B. Tenenbaum,Vin de Silva与John C. Langford等人提出的一种针对非线性数据的无监督降维方法,它是流形学习算法中的一种用局部线性反映全局的非线性的算法,能够使降维的数据保持原有数据的拓扑结构(Roweis et al,2000)。Isomap算法是建立在CMDS 基础之上,试图保持数据的内在的几何特性,获得流形上数据点之间的测地线距离。Isomap 算法用测地线距离替代欧式距离,并应用CMDS对测地线距离进行低维嵌入,克服了CMDS的局限性。一个流形上的测地线距离可以表示为一系列邻域点之间的距离之和。算法的关键在于利用样本向量之间的欧式距离dE (i, j) 计算出样本之间的测地线距离dG (i, j) ,然后使用经典CMDS 算法构造一个新的d 维(d 为降维空间的维数)欧式空间Y ,最大限度地保持样本之间的欧式距离dE (i, j) 与dG (i, j)误差最小,从而起到降维的作用。对于邻域点,Isomap 由输入空间直接得到其测地线距离;对于非邻域点,其测地线距离可近似为一系列邻域点的测地线距离之和。
Isomap 的算法有三个步骤:第一个步骤是确定在流形M上,哪些点是相互邻域点。第二个步骤是通过计算最短路径dG (i, j)的方法估计流形M上的测地线距离dM (i, j)。第三个步骤是应用 CMDS 构造d维嵌入。具体算法如下:
第一个步骤是确定在流形M上的邻域点,构造近邻图。设输入空间X 的任意两个样本向量x i 与x j 的欧式距离为dE (i, j),然后用全部的样本向量x i (1≤ i ≤N)构造有权图G 。采用如下方法确定x i 的邻域,即对于x i 将距离其最近的k个点作为邻域。在图G中,若x j 是x i 的邻域点,则将它们连接起来,设连接线的长度分别为它们的欧式距离dE (i, j)。对输入样本集中所有的点都执行上述相同的操作,则可得到有权图G。
第二个步骤是估计流形M 上的测地线距离d M (i, j)。采用计算最短路径d G (i, j)的方法近似估计流形M 上的测地线距离d M (i, j)。在图G 中,设任意两个样本向量 x i x j 之间的最短距离为d G (i, j),如果x i x j 之间存在连线,则初始化d G (i, j) =d E (i, j) ,否则令d G (i, j) = ∞。然后更新d G (i, j) 的数值,对于k = 1,2,3,…N ,令d G (i, j)= min{ d G (i, j), d G (i, k)+ d G (i, k+1)} ,经过多次迭代,样本向量间最短路径矩阵D G ={d G (i,j)}便可收敛。最短路径矩阵可以采用dijkstra 算法计算得到。
第三个步骤是应用 CMDS 构造d 维嵌入。使用经典CMDS 将样本向量压缩到d 维, 并使压缩后样本向量之间的欧式距离尽可能接近已求出的最短路径。设矩阵τ(D G )的前d 个特征值λ 1λ 2λ 3 ≥…≥ λ d对应的特征向量为 v 1 ,v 2 ,v 3 , …,v d ,λp是第p个特征值,
Figure 11572DEST_PATH_IMAGE006
λp对应的特征向量的第m个分量,则d维嵌入向量y i 的第p个分量等于
Figure 621545DEST_PATH_IMAGE034
,高维空 间中各点在低维空间中的嵌入坐标Y ,表示为:
Figure 650681DEST_PATH_IMAGE035
(4)
从而实现了高维数据的降维。
(3)动态聚类分析
将经过降维的样本集
Figure 438640DEST_PATH_IMAGE036
(d为投影的低维空间维度,N为样本数)进行分 类,划分为r个子集,各子集内的样本近似,而各子集之间的样本不同。通过求各子集的质 心,提取属于该类的特征。本文主要采用动态聚类法(dynamical clustering methods )对 降维后样本进行分类。动态聚类分析的基本思想是:通过迭代寻找r个聚类的一种划分方 案,使得用这r个聚类的均值来代表相应各类样本时,所得的总体误差最小。即,通过该算 法,将总体样本集划分为r个子集,使得各子集内的样本最近似,而各子集之间的样本最不 同。再提取各子集的均值,得到属于该子集的特征。
分析时,先随机选择r个样本点,作为r个子集的初始聚类中心,计算所有样本与这r个初始聚类中心的距离,并把样本划分到与之距离最近的那个中心所在的子集中,使所有的样本根据距离自动聚集到各个子集中,从而得到初始分类类别数以及初始子集。计算各子集所有样本的均值,得到新一代的聚类中心,再次计算所有样本与新的聚类中心的距离,自动聚集,得到新的聚类中心,计算各子集所有样本的均值……。不断迭代,并比较第p代和第p+1代聚类中心,如果相差在范围之内,则认为计算收敛,从而得到最终的子集及各子集的聚类中心。
该聚类方法收敛速度快,容易解释,聚类效果较好。但是该方法的聚类结果受初始聚类中心的选择的影响较大。因此本方法在迭代收敛后,不断的比较分析,判断子集数和初始子集中心是否合理,调整子集数以及子集的初始中心,以此反复进行聚类的迭代运算,直至确定合理的空间分布特征类别数和聚类中心。计算步骤如下:
(1)分析的样本集为Φ={Y 1Y 2,…,Y N },Y为低维空间中的映射点,M为最大迭代次 数,r为初始划分的子集数,C={C 1C 2,…,C r }为r个子集,其中,初始时
Figure 186016DEST_PATH_IMAGE037
jj=1,2,…rr<N
(2)从Φ中随机选取r个样本,作为初始r个子集的各中心向量
Figure 599679DEST_PATH_IMAGE038
(0为迭代次数初始值)。
(3)对于n=1,2,……N,计算样本Y ii 与每个聚类中心Z jj ={z 1z 2,……z r }的距离
Figure 483322DEST_PATH_IMAGE027
,如果d iijj =min{d iijj },ii=1,2,…N
Figure 206296DEST_PATH_IMAGE039
,更新
Figure 440968DEST_PATH_IMAGE013
,其中,
Figure 392744DEST_PATH_IMAGE014
(4)对于jj=1,2,…r,对C jj 中的所有样本点,重新计算中心向量
Figure 396472DEST_PATH_IMAGE040
(5)不断重复迭代,如果
Figure 526233DEST_PATH_IMAGE041
j=1,2,……r,则回到(2),重复迭代计算,如 果
Figure 982622DEST_PATH_IMAGE017
j=1,2,……r,运算结束。
(6)输出各子集C={C 1C 2,…,C r },属于各子集的样本
Figure 738089DEST_PATH_IMAGE042
以及各子集 的均
Figure 596323DEST_PATH_IMAGE019
(4)短间隔降雨时空特征空间的重构
以上的聚类方法得到的各子集C={C 1C 2,…,C r }以及各子集的均值
Figure 661100DEST_PATH_IMAGE043
并不是所 求的特征空间,而降维后数据集的特征空间。本文所用的Isomap算法认为高维空间和低维 空间局部线性关系保持不变。也就是说,高维空间中的样本x i 与其周围的样本线性关系,与 其在低维空间中的映射点y i 与其周围对应样本的局部线性关系相同。因此,在该空间中,属 于同一个子集的样本,在高维空间中,也具有相似性。低维空间中,属于同一子集的样本,在 高维空间中,也划分为同一子集。
这意味着,在低维空间中的各子集C={C 1C 2,…,C r }中的样本,在高维空间中,也分 别属于同一子集,B={B 1B 2,…,B r },在高维空间中求各子集的均值
Figure 808048DEST_PATH_IMAGE044
,为高维空间中各类的聚类中心,即为属于该类样本的动态时空 分布特征。
四、有益效果:
利用该算法,对以北京市的历史长间隔(6h、12h、24h等)降雨监测数据进行了修补和重构,得到符合该地区降雨时空分布特征的短间隔(10min、30min、1h等)降雨空间数据,较为准确、合理的复原和重构了该地区的短间隔降雨空间数据,有效的扩充和完善了短间隔降雨空间资料样本库,可以满足对降雨时空分布精细化特征分析的要求,为流形学习算法处理非线性空间数据提供了新思路。
得到有效扩充和完善的,符合该地区降雨时空分布精细化特征的学习样本库,可为地区的工程规划设计、洪涝风险分析等提供高颗粒度的降雨空间资料,为地区洪涝风险精细化管理提供有效的数据支撑。
本发明将AI技术中的流形学习算法有效的引入到历史降雨空间数据的修补和重构中,可将宝贵的历史降雨资料有效的利用起来,有效的扩充和完善了短间隔降雨空间数据,为地区降雨精细化时空特征分析和提取提供了更为丰富和合理的训练样本,为人工智能技术在防洪减灾方向的应用提供了新思路。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。

Claims (10)

1.一种降雨空间数据复原和重构的方法,包括获取近期短间隔的降雨资料,其特征在于,还包括以下步骤:
步骤1:对所述近期短间隔的降雨资料进行数字化和结构化处理,从时间维度和空间维度构造暴雨时空分布动态矩阵;
步骤2:对所述暴雨时空分布动态矩阵进行降维;
步骤3:对降维后的降雨时空分布特征进行分类;
步骤4:提取挖掘各类暴雨精细化时空分布特征;
步骤5:基于提取的精细化时空分布特征,对历史长历时降雨空间资料进行复原和重构。
2.如权利要求1所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤1包括对不同历时的各场次降雨,构建时间维度和空间维度占比矩阵,用雨量占比的矩阵来描述某个时段降雨的分布特征。
3.如权利要求2所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤1还包括建立降雨过程样本集Ω,实现多场次降雨的时空动态发展特征的数学描述,公式如下
Figure 562426DEST_PATH_IMAGE001
Figure 923131DEST_PATH_IMAGE002
其中,Ω包括N场暴雨,x j 为第j次降雨的占比矩阵,
Figure 952267DEST_PATH_IMAGE003
j次降雨过程中第i个雨量站t 时刻的降雨量占该时刻所有站降雨量的百分比,s为雨量站数,m为总时刻数。
4.如权利要求3所述的降雨空间数据复原和重构的方法,其特征在于,所述j次降雨过程中第i个雨量站t时刻的降雨量占该时刻所有站降雨量的百分比的公式为
Figure 255072DEST_PATH_IMAGE004
其中,
Figure 736869DEST_PATH_IMAGE005
为第j次降雨过程中,第i雨量站t时刻的降雨量,i=1,2,3…st=1,2,3…m
5.如权利要求4所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤2包括以下子步骤:
步骤21:确定在流形M上的邻域点,构造近邻图;
步骤22:采用计算最短路径d G (p,q)的方法近似估计流形M 上的测地线距离d M (p,q);
步骤23:将样本向量压缩到d 维,并使压缩后的样本向量之间的欧式距离尽可能接近已求出的最短路径。
6.如权利要求5所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤21包括设定输入空间X 的任意两个样本向量x p x q 的欧式距离为d E (p,q),然后用全部的样本向量x k (1≤kN)构造有权图G。
7.如权利要求6所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤22包括设任意两个样本向量 x p x q 之间的最短距离为d G (p,q),如果x p x q 之间存在连线,则初始化d G (p,q) =d E (p,q),否则令d G (p,q)= ∞。
8.如权利要求7所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤22还包括更新d G (p,q)的数值,对于k = 1,2,3,…N ,令d G (p,q)= min{ d G (p,q),d G (p,k)+ d G (p,k+ 1)} ,经过多次迭代,样本向量间最短路径矩阵D G ={d G (p,q)}收敛。
9.如权利要求8所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤23包括 设矩阵τ(D G )的前d个特征值λ 1λ 2λ 3 ≥…≥ λ d对应的特征向量为 v 1 ,v 2 ,v 3 , …,v d λp是第p个特征值,
Figure 399801DEST_PATH_IMAGE006
λp对应的特征向量的第m个分量,则d维嵌入向量y i 的第p个分量 等于
Figure 283443DEST_PATH_IMAGE007
,高维空间中各点在低维空间中的嵌入坐标Y ,表示为:
Figure 22729DEST_PATH_IMAGE008
10.如权利要求9所述的降雨空间数据复原和重构的方法,其特征在于,所述步骤3包括以下子步骤:
步骤31:分析的样本集为Φ={Y 1Y 2,…,Y N },Y为低维空间中的映射点,M为最大迭代次 数,r为初始划分的子集数,C={C 1C 2,…,C r }为r个子集,其中,初始时
Figure 991822DEST_PATH_IMAGE009
jj=1,2,…rr<N
步骤32:从Φ中随机选取r个样本,作为初始r个子集的各中心向量
Figure 694330DEST_PATH_IMAGE010
步骤33:对于n=1,2,……N,计算样本Y ii 与每个聚类中心Z jj ={z 1z 2,……z r }的距离
Figure 698058DEST_PATH_IMAGE011
,如果d iijj =min{d iijj },ii=1,2,…N,则
Figure 342666DEST_PATH_IMAGE012
,更新
Figure 799055DEST_PATH_IMAGE013
,其 中,
Figure 803789DEST_PATH_IMAGE014
步骤34:对于jj=1,2,…r,对C jj 中的所有样本点,重新计算中心向量
Figure 396444DEST_PATH_IMAGE015
步骤35:不断重复迭代,如果
Figure 211954DEST_PATH_IMAGE016
j=1,2,……r,则重新执行步骤32,重复迭代 计算,如果
Figure 358901DEST_PATH_IMAGE017
j=1,2,……r,运算结束;
步骤36:输出各子集C={C 1C 2,…,C r },属于各子集的样本
Figure 918059DEST_PATH_IMAGE018
以及各子集 的均
Figure 381532DEST_PATH_IMAGE019
,其中,o为各子集里样本的个数。
CN202211298864.7A 2022-10-24 2022-10-24 一种降雨空间数据复原和重构的方法 Pending CN115358354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211298864.7A CN115358354A (zh) 2022-10-24 2022-10-24 一种降雨空间数据复原和重构的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211298864.7A CN115358354A (zh) 2022-10-24 2022-10-24 一种降雨空间数据复原和重构的方法

Publications (1)

Publication Number Publication Date
CN115358354A true CN115358354A (zh) 2022-11-18

Family

ID=84007970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211298864.7A Pending CN115358354A (zh) 2022-10-24 2022-10-24 一种降雨空间数据复原和重构的方法

Country Status (1)

Country Link
CN (1) CN115358354A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313911A (zh) * 2023-05-30 2023-12-29 中国水利水电科学研究院 一种基于降雨特征识别的洪水预报方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
CN109376940A (zh) * 2018-11-02 2019-02-22 中国水利水电科学研究院 获取降雨过程中的降雨时空分布规律的方法和装置
CN112785053A (zh) * 2021-01-15 2021-05-11 北京市水科学技术研究院 一种预报城市流域洪涝的方法及系统
CN114896785A (zh) * 2022-05-09 2022-08-12 西北农林科技大学 一种点暴雨降雨量排序方法及点暴雨重现期估算方法
WO2022178977A1 (zh) * 2021-02-26 2022-09-01 西北工业大学 一种基于自适应近邻图嵌入的无监督数据降维方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678500A (zh) * 2013-11-18 2014-03-26 南京邮电大学 一种数据挖掘中基于线性判别分析的改进型k均值聚类方法
CN109376940A (zh) * 2018-11-02 2019-02-22 中国水利水电科学研究院 获取降雨过程中的降雨时空分布规律的方法和装置
CN112785053A (zh) * 2021-01-15 2021-05-11 北京市水科学技术研究院 一种预报城市流域洪涝的方法及系统
WO2022178977A1 (zh) * 2021-02-26 2022-09-01 西北工业大学 一种基于自适应近邻图嵌入的无监督数据降维方法
CN114896785A (zh) * 2022-05-09 2022-08-12 西北农林科技大学 一种点暴雨降雨量排序方法及点暴雨重现期估算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁利国等: "非线性降维算法Isomap与C-Isomap的研究", 《电脑知识与技术(学术交流)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313911A (zh) * 2023-05-30 2023-12-29 中国水利水电科学研究院 一种基于降雨特征识别的洪水预报方法

Similar Documents

Publication Publication Date Title
Yu et al. LSTM-EFG for wind power forecasting based on sequential correlation features
Flaounas et al. Assessment of an ensemble of ocean–atmosphere coupled and uncoupled regional climate models to reproduce the climatology of Mediterranean cyclones
Miao et al. Triggering factors and threshold analysis of baishuihe landslide based on the data mining methods
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN107133398B (zh) 一种基于复杂网络的河流径流量预测方法
CN108510008B (zh) 一种基于浮动车轨迹点空间关系和分布的路网提取方法
CN115358354A (zh) 一种降雨空间数据复原和重构的方法
CN114462254A (zh) 基于流向的分布式水文模型并行计算方法
Tabari et al. Developing a framework for attribution analysis of urban pluvial flooding to human-induced climate impacts
CN113779105B (zh) 分布式轨迹流伴随模式挖掘方法
CN112116709A (zh) 一种提高地形表达精度的地形特征线处理方法
Zahraie et al. SST clustering for winter precipitation prediction in southeast of Iran: Comparison between modified K-means and genetic algorithm-based clustering methods
Li et al. Application of an ensemble learning model based on random subspace and a J48 decision tree for landslide susceptibility mapping: a case study for Qingchuan, Sichuan, China
Gong et al. Urban land-use land-cover extraction for catchment modelling using deep learning techniques
CN115858498A (zh) 五维时空分布式数据库构建方法及装置
CN115879051A (zh) 一种基于vae的轨迹大数据异常检测方法与系统
CN109241201A (zh) 一种基于曲率的拉普拉斯中心性峰值数据聚类方法
CN115186734A (zh) 一种基于混合采样的滑坡易发性评价建模样本挑选方法
CN111274545B (zh) 一种栅格尺度基于地形地貌的多模式产流计算方法
Tran Meta-PCP: a concise representation of prevalent co-location patterns discovered from spatial data
Wu et al. Discovery of spatio-temporal patterns in multivariate spatial time series
Chaudhuri et al. Analysis of precise climate pattern of Maldives. A complex island structure
Wu et al. Mining geographic episode association patterns of abnormal events in global earth science data
Hu et al. Data Customization-based Multiobjective Optimization Pruning Framework for Remote Sensing Scene Classification
Chen et al. Internet of things technology in ecological security assessment system of intelligent land

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination