CN103942325A - 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 - Google Patents

一种融合气候分区思想的海陆气候事件关联规则挖掘方法 Download PDF

Info

Publication number
CN103942325A
CN103942325A CN201410176895.4A CN201410176895A CN103942325A CN 103942325 A CN103942325 A CN 103942325A CN 201410176895 A CN201410176895 A CN 201410176895A CN 103942325 A CN103942325 A CN 103942325A
Authority
CN
China
Prior art keywords
overbar
climate
event
time
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410176895.4A
Other languages
English (en)
Inventor
邓敏
石岩
杨文涛
刘启亮
刘慧敏
何占军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201410176895.4A priority Critical patent/CN103942325A/zh
Publication of CN103942325A publication Critical patent/CN103942325A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。本发明通过对空间数据建立Delaunay三角网并施加整体和局部长边约束,获得合理稳健的空间邻近关系网,进而度量空间邻近实体间时间序列的相似性,进行层次聚类得到多层次聚类结果,基于伪T统计量分析获得较佳气候分区结果;纳入相关领域先验知识约束,分别从海洋气候指数和各陆地气候区域提取感兴趣气候事件,进而通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束,挖掘海陆气候事件间的有效关联规则。本发明在挖掘过程中可有效顾及多尺度效应得到有效气候区域,多重约束亦使得本发明在挖掘关联规则时具有高效性、针对性和实用性。

Description

一种融合气候分区思想的海陆气候事件关联规则挖掘方法
技术领域
本发明涉及时空数据挖掘与分析技术领域,尤其涉及的是一种融合气候分区思想的海陆气候事件关联规则挖掘方法。
背景技术
近年来,全球气候变化导致异常气候事件频发,对人类的生活环境和经济发展带来严重负影响,研究表明海洋气候异常对陆地气候异常事件的发生具有重要的诱发作用。海陆气候数据通常以时间序列的形式记录海陆气候要素随时间的变化趋势,具有海量、多维、异质等特性,并隐含着大量未知的海陆气候关联模式。
许多学者为了发现海陆气候时间序列间隐藏的关联模式进行了大量研究,所提出的方法可大致分为两类:(1)特征值统计方法,该类方法直接针对海陆气候数据进行主成分分析、奇异值分解等统计手段得到特征序列,并进一步挖掘海陆气候序列间隐藏的关联模式;(2)数据挖掘方法,旨在从海量数据集中获取潜在的、有用的知识和模式,包括聚类分析、关联规则挖掘、数据建模预测分析、混合等内容。其中,时序关联规则挖掘技术可有效地从多维时间序列中发现事件间隐藏的关联模式,例如Mannilia提出WINEPI和MINEPI算法以及Harms等提出MOWCATL算法。特征值统计方法对于海量数据稳定性不高,且对噪声敏感,此类方法现已很少使用;数据挖掘方法虽然可弥补特征值统计方法存在的缺陷,但海量时空数据的自相关性导致大量冗余、无意义的规则出现。聚类技术可有效地顾及时空数据的相关性和异质性,并将海量数据集划分为若干有意义的簇,从而可有效压缩数据量,极大地有利于进一步的分析工作。然而,现有聚类方法大都在单一尺度下进行,忽视了时空数据的尺度特征,使得聚类结果无法反映尺度变换过程中时空信息的特征渐变规律,由此所得结果的实际有效性难以判别;另外,现有的时序关联规则挖掘方法大都未充分融合气象领域相关知识,且缺乏相应约束条件,从而难以得到有意义的规则。例如,大多时序关联规则挖掘方法一方面未顾及应用背景,难以提取有意义事件;另一方面,虽然对时间窗口和时间延迟进行了必要约束,但并未对规则前件和后件之间的充分度和必要度施加必要限制条件,从而使得得到的规则缺乏可信度。
发明内容
本发明所要解决的技术问题是针对现有技术存在的缺陷,解决海陆气候事件关联规则挖掘中,同时顾及多尺度效应以及多重约束所遇到的技术问题,提供了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。
本发明的技术方案如下:
一种融合气候分区思想的海陆气候事件关联规则挖掘方法,其步骤如下:
(1)时间序列数据正态化检测与预处理
针对离散分布的空间数据以及每个空间实体所蕴含的时间序列,首先采用QQ图检验法进行时间序列数据正态化检测,若序列不服从正态分布则对其进行开根号处理,即:
Z i ' = Z i
Zi表示原始时间序列数据,Zi 表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列;进而采用新的时间序列数据作为下一步分析对象;
(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区
2.1)对初始散点数据构造Delaunay三角网,进而对三角网施加整体边长约束和局部边长约束,从而精化每个点的空间邻域;其中,整体约束条件表达为CGlobal(Ei),表示边Ei的整体约束条件,利用下列公式进行计算:
C Global ( E i ) = Mean ( DT ) + Mean ( DT ) | E i | * SD ( DT )
其中,Mean(DT)表示三角网的平均边长;SD(DT)表示三角网所有边的边长标准差;|Ei|表示边Ei的边长值;
局部边长约束条件表达为表示与实体p连接的边Ej的局部约束条件,利用下列公式计算:
C i Local ( E j ) = Mean ( NN ( p ) ) + Mean ( NN ( p ) ) | E j | * Mean ( SD i )
Mean ( SD i ) = Σ j = 1 k SD ( p j ) k , p j ∈ G i
其中,Mean(NN(p))表示图Gi中,p的空间邻域内所有边的边长平均值;SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的边长标准差;Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值;
2.2)针对每个空间实体Em,用WARD法度量与其空间邻域实体En之间的距离利用下列公式计算:
D E m E n 2 = n E m n E n n E m + n E n ( x E m ‾ - x E n ‾ ) T ( x E m ‾ - x E n ‾ )
其中,分别表示空间实体Em和En所含子实体数目(初始状态下所有实体仅含一个子实体);分别表示空间实体Em和En内所有子实体的属性均值;
2.3)对数据集中最相似的两个实体进行聚合成簇,用簇内所有实体属性均值作为簇的属性;
2.4)用聚合成的簇作为新实体,重复步骤2.2)和2.3),直到所有点聚合为一个整体,从而得到层次树和每一层的聚合结果;
2.5)从层次树中选择合适的区间结果进行伪T统计量分析,并从中选取合适的聚合结果;其中,空间簇Em、En的离差平方和分别为:
S E m = Σ x m ∈ E m ( x m ‾ - x E m ‾ ) T ( x m ‾ - x E m ‾ )
S E n = Σ x n ∈ E n ( x n - x E n ‾ ) T ( x n - x E n ‾ )
将Em、En聚类El后的离差平方和为:
S E l = Σ x l ∈ E l ( x l - x E l ‾ ) T ( x l - x E l ‾ )
那么合并后的离差平方和增量为:
W E m E n = S E l - S E m - S E n = n E m + n E n n E l ( x E m ‾ - x E n ‾ ) T ( x E m ‾ - x E n ‾ )
进而定义伪T统计量PST为:
PST = W E m E n ( S E m + S E n ) / ( n E m + n E n - 2 )
其中,分别表示空间实体Em和En所含空间实体数目;xm、xn和xl分别表示空间簇Em、En和El内的空间实体;分别表示空间簇Em、En和El内空间实体的属性均值;PST越大,说明合并Em、En为El后,离差平方和的增量Wmn与原空间簇Em、En的类内离差平方和的比值越大,即表明合并后的两个空间簇Em、En是很分开的,也就是上一层次聚类效果较好;
(3)针对步骤(1)得到的有效陆地气候区域,融合海洋气候指数进行顾及多约束的时序关联规则挖掘
3.1)受约于相关应用背景需要和领域知识,对气候时间序列进行离散化并从中提取感兴趣事件;例如对于降水时间序列,仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象,并确定因子属性和结果属性作为规则前件和后件,例如将海洋气候要素作为规则前件,陆地气候要素作为规则后件;
3.2)参数初始化:根据相关领域先验知识设置时间窗口宽度阈值min_win,时间延迟阈值time_lag,充分度阈值min_Suf,必要度阈值min_Nec;
3.3)针对步骤3.1)提取的感兴趣事件,探索性的对其施加时间窗口宽度约束,从而得到一系列的有效前、后件事件集;给定事件序列ES=<s,Ts,Te>,其中:s=<(A1,t1),(A2,t2),…,(An,tn)>表示事件集合,Ai隶属于不同事件类型ET,Ts和Te分别为ES的起始时间和结束时间;任意n个不同事件类型构成一个n元事件集EP=<ET1,ET2,…,ETn>,其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI;若事件集EPI中事件发生时间与结束时间之差,即时间窗口宽度win_width≤min_win,那么EPI即为EP的有效事件;分别针对3.1)中得到的前件和后件,提取得到有效前后件事件集;
3.4)记步骤3.3)得到的有效后件事件集的数目nc,顾及nc、min_Suf和min_Nec,对有效前件事件集进行筛选,保留数目位于区间[nc*min_Nec,nc/min_Suf]的有效前件事件集,以减少无效规则的产生;
3.5)针对两个前后件事件集EPA和EPC中的有效事件项EPIA和EPIC,可得到形如EPIA→EPIC的关联规则AR,给定某一有效前件EPIAi和有效后件EPICi,其中时间发生起始时间分别为ts和ts′,结束时间分别记为te和te’,若0<ts′-ts≤time_lag且te’-te>0,那么将EPIAi→EPICi定义为关联规则AR的一条有效项;进而,记AR的有效项中前件数目为na,后件数目为nc,若na/nc>min_Suf且nc/na>min_Nec,那么定义AR为一条有效关联规则;从而,采用以上策略提取所有的有效关联规则;
3.6)根据相关领域知识对得到的有效规则进行验证分析,最终从规则里面提取出潜在的模式和知识;
(4)对有效规则进行可视化显示,并输出最终结果文件。
步骤(2)中,优选地,采用顾及空间邻近的层次聚类方法得到有效气候区域。
步骤3.1)中,优选地,纳入相关领域先验知识约束,提取感兴趣事件集。
步骤3.3)中,优选地,纳入时间窗口宽度,获取有效前后件事件集。
步骤3.5)中,优选地,纳入时间延迟约束、最小充分度和最小必要度约束,挖掘有效关联规则。
本发明是一种需要较少的人为干预的海陆气候事件关联规则挖掘方法,借助顾及空间邻近的层次聚类方法顾及到多尺度效应,以提高气候分区的精度以及与自然规律的一致性,进而纳入多重约束条件进一步提高了海陆气候事件关联规则挖掘方法的实用性与可靠性。
本发明借助层次约束Delaunay三角网构建空间邻近关系,在此基础上采用层次聚类方法进行气候分区,即满足地理学第一定律,又顾及到多尺度效应;顾及多重约束挖掘海陆气候事件有效关联规则,避免了大量冗余规则的出现。与传统的时序关联规则方法比较,本发明能够在顾及多尺度效应基础上有效挖掘不同气候区域间的遥相关模式,且具有较高的运行效率。
附图说明
图1是融合气候分区思想的海陆气候事件关联规则挖掘方法的实现流程。
图2是一组降水时间序列数据QQ图检验;a:原始序列数据的QQ图;b:时间序列开根号处理后的QQ图。
图3是中国陆地区域降水分区实例;a:中国气象站点空间分布;b:原始Delaunay三角网;c:施加整体边长约束;d:施加局部边长约束;e:层次聚类结果伪T统计量分析;f:分区数为22的聚类结果;g:分区数为15的聚类结果;h:分区数为12的聚类结果;i:分区数为10的聚类结果。
图4是三个海洋气候指数序列;a:南方涛动指数SOI(SouthernOscillationIndex);b:太平洋十年涛动指数PDO(PacificDecadalOscillation);c:多变量ENSO指数MEI(MultivariateENSOIndex)。
图5是一组事件序列示例数据。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
实施例1
本发明的具体实施方案由以下几个步骤组成:
(1)时间序列数据正态化检测与预处理
对于不服从正态分布的时间序列数据,无法通过度量序列间的相似性进行聚类分析,为此首先利用QQ图分析对时间序列数据进行正态化检测。图2(a)为对某一气象站点所记录的降水序列绘制的QQ图,若数据服从正态分布,则其对应的QQ图近似在一条直线上,而此序列的QQ图明显偏离参照直线,由此可见其不服从正态分布;为此,对原始时间序列进行开根号处理可既保持序列间的相似性关系,又可使得序列近似服从正态分布,从而满足进一步的分析需求。如图2(b)所示,进行开根号处理后的时间序列对应的QQ图近似呈直线,即近似服从正态分布。
(2)根据整体和局部约束条件,构建合理、稳健的空间邻近关系
图3(a)为中国气象站点空间分布,其中包含554个站点数据,每个站点由一组时间序列构成其专题属性,本实验采用1982年1月-2007年12月共26年的月均降水数据作为分析对象。图3(b)为对气象站点构建的Delaunay三角网,图3(c)和(d)分别为对原始Delaunay三角网施加整体和局部约束后的空间邻近关系网。
(3)顾及空间邻近关系进行层次气候分区
基于步骤(2)构建的实体间空间邻近关系,融合层次聚类方法,每次将空间邻近且时间序列最相似的实体进行合并,从而形成聚类层次树。进而,采用伪T统计量从各层聚类结果中选择较佳结果。研究表明,对于具有N个空间实体的数据集,簇数是合理、有效的。为此,图3(e)绘制出簇数从23→22,22→21,…,2→1所对应的伪T统计量变化曲线,以及四个局部极大值点,图3(f)-(i)为相应的四个较佳分区结果,分区数分别为22,15,12和10。通过分析分区结果以及最大程度保留细节和归纳区域特征,选择分区数为15作为进一步分析对象。
(4)顾及相关领域先验知识,分别从海洋指数和各陆地气候区域中提取感兴趣事件。图4为SOI、PDO和MEI三种海洋气候指数1982年1月-2007年12月的时间序列曲线,表1和表2为基于先验知识,对三种海洋气候指数以及降水序列转化得到的标准化降水指数SPI进行离散化提取得到的事件。其中,需要进一步挖掘海洋气候事件与陆地干旱和洪涝事件间的关联规则。
表1三种海洋气候指数
表2标准化降水指数SPI(StandardizedPrecipitationIndex)
(5)顾及时间窗口宽度约束、时间延迟约束、充分度和必要度约束挖掘海陆气候事件有效关联规则。图5为一组事件序列示例数据,<A,24>为一个事件;<(D,20),(C,22),…,(D,35),20,37>为事件序列;<B,C>为一个二元事件集,<(B,23),(C,22)>、<(B,23),(C,34)>、<(B,32),(C,22)>、<(B,32),(C,34)>为<B,C>的项;<(B,32),(C,34)>的时间窗口宽度为2;<B,C>=><F,E>为一个时序关联规则。将前件时间窗口宽度阈值设置为6个月,后件采用时间尺度为3个月的SPI指数,时间延迟设置为6个月,充分度和必要度阈值设置为0.4,通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束,可得到如表3、表4和表5所示的一系列有效关联规则(以各海洋气候指数与云南地区异常降水事件间有效关联规则为例)。
表3SOI指数与云南地区异常降水事件关联规则
SOI指数 异常降水事件 充分度 必要度
(-∞,-1.5] 轻度干旱 0.45 0.82
(-1,-0.5] 轻度干旱 0.59 0.8
(-0.5,0.5) 轻度干旱 0.73 0.72
[1.5,+∞) 轻度干旱 0.49 0.71
(-1,-0.5],(-0.5,0.5) 轻度干旱 0.55 0.67
(-0.5,0.5),[1.5,+∞) 轻度干旱 0.49 0.56
(-∞,-1.5] 轻度洪涝 0.47 0.8
(-1,-0.5] 轻度洪涝 0.5 0.7
(-0.5,0.5) 轻度洪涝 0.82 0.72
[1.5,+∞) 轻度洪涝 0.45 0.59
(-1,-0.5],(-0.5,0.5) 轻度洪涝 0.58 0.61
(-0.5,0.5),[1.5,+∞) 轻度洪涝 0.44 0.56
表4PDO指数与云南地区异常降水事件关联规则
PDO指数 异常降水事件 充分度 必要度
[1,1.5) 轻度干旱 0.48 0.8
[1,1.5) 轻度洪涝 0.44 0.7
表5MEI指数与云南地区异常降水事件关联规则
MEI指数 异常降水事件 充分度 必要度
[1.5,+∞) 中度干旱 0.42 0.45
(-0.5,0.5) 轻度干旱 0.75 0.8
[1.5,1) 轻度干旱 0.45 0.82
(-0.5,0.5) 轻度洪涝 0.69 0.66
[0.5,1) 轻度洪涝 0.45 0.8
(6)有效规则输出与可视化
将有效规则输出为TXT格式文件,其中每个陆地气候区域保存为一个独立文件,包含四列数据,第一列为相关联的海洋气候指数以及事件,第二列为该陆地气候区域发生的异常气候事件,第三列和第四列分别为充分度和必要度。可对每个文件进行查看和进行深入分析研究。
近年来,我国受异常气候事件的负面影响极为严重,通过研究海洋气候指数与陆地异常气候事件间的关联机制,对于有效预测异常气候事件的发生具有重要的指导价值。进一步总结应用本发明挖掘得到的海洋气候指数对我国陆地区域异常降水事件的有效关联规则,可得到以下知识:
1)SOI指数与我国陆地异常降水事件:
①仅与我国陆地区域轻度干旱和洪涝事件关联性较强;
②<C(-1,-0.5]>和<D(-0.5,0.5)>与我国大部分地区轻度异常降水事件关联较强;
③<A(-∞,-1.5]>、<B(-1.5,-1]>和<G[1.5,+∞)>与我国部分地区轻度异常降水事件关联较强。
2)PDO指数与我国陆地异常降水事件
①<D(-1,1)>和<E[1,1.5)>与我国大部分地区轻度异常降水事件关联较强;
②<A(-∞,-2]>与江苏、安徽地区重度干旱事件关联较强;
③<A(-∞,-2]>和<B(-2,-1.5]>与广东、广西地区重度干旱事件关联较强;
④<C(-1.5,-1]>和<G[2,+∞)>分别与内蒙、宁夏、山西一带中度干旱和洪涝事件关联较强;
⑤<G[2,+∞)>与内蒙、新疆一带中度干旱事件关联较强;
⑥<C(-1.5,-1]>与广东、福建一带中度干旱事件关联较强。
3)MEI指数与我国陆地异常降水事件
①<D(-0.5,0.5)>和<E[0.5,1)>与我国大部分地区轻度异常降水事件关联较强;
②<B(-1.5,-1]>、<C(-1,-0.5]>和<F[1,1.5)>与我国部分地区轻度异常降水事件关联较强;
③<G[1.5,+∞)>与云南地区中度干旱事件关联较强;
④<C(-1,-0.5]>与山东、辽宁一带,以及长江湖北段区域中度干旱事件关联较强;
⑤<F[1,1.5)>与四川地区、海南地区中度干旱事件关联较强。
此外,气象领域已有知识表明,当SOI指数极大或极小时,频繁导致我国降水的异常事件发生,本文得到的知识与此高度吻合,这证明了本发明在挖掘海陆气候事件关联规则应用的实用性和有效性。同时,本发明还发现一些未知知识,尤其是PDO指数和MEI指数与我国某些区域的极端异常降水事件存在强关联,这可为气象学领域的深度研究,以及异常气候事件的预测提供必要依据。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (1)

1.一种融合气候分区思想的海陆气候事件关联规则挖掘方法,其特征是,其步骤如下:
(1)时间序列数据正态化检测与预处理
针对离散分布的空间数据以及每个空间实体所蕴含的时间序列,首先采用QQ图检验法进行时间序列数据正态化检测,若序列不服从正态分布则对其进行开根号处理,即:
Z i ' = Z i
Zi表示原始时间序列数据,Zi 表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列;进而采用新的时间序列数据作为下一步分析对象;
(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区
2.1)对初始散点数据构造Delaunay三角网,进而对三角网施加整体边长约束和局部边长约束,从而精化每个点的空间邻近域;其中,整体约束条件表达为CGlobal(Ei),表示边Ei的整体约束条件,利用下列公式进行计算:
C Global ( E i ) = Mean ( DT ) + Mean ( DT ) | E i | * SD ( DT )
其中,Mean(DT)表示三角网的平均边长;SD(DT)表示三角网所有边的边长标准差;|Ei|表示边Ei的边长值;
局部边长约束条件表达为表示与实体p连接的边Ej的局部约束条件,利用下列公式计算:
C i Local ( E j ) = Mean ( NN ( p ) ) + Mean ( NN ( p ) ) | E j | * Mean ( SD i )
Mean ( SD i ) = &Sigma; j = 1 k SD ( p j ) k , p j &Element; G i
其中,Mean(NN(p))表示图Gi中,p的空间邻域内所有边的边长平均值;SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的边长标准差;Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值;
2.2)针对每个空间实体Em,用WARD法度量与其空间邻域实体En之间的距离利用下列公式计算:
D E m E n 2 = n E m n E n n E m + n E n ( x E m &OverBar; - x E n &OverBar; ) T ( x E m &OverBar; - x E n &OverBar; )
其中,分别表示空间实体Em和En所含子实体数目(初始状态下所有实体仅含一个子实体);分别表示空间实体Em和En内所有子实体的属性均值;
2.3)对数据集中最相似的两个实体进行聚合成簇,用簇内所有实体属性均值作为簇的属性;
2.4)用聚合成的簇作为新实体,重复步骤2.2)和2.3),直到所有点聚合为一个整体,从而得到层次树和每一层的聚合结果;
2.5)从层次树中选择合适的区间结果进行伪T统计量分析,并从中选取合适的聚合结果;其中,空间簇Em、En的离差平方和分别为:
S E m = &Sigma; x m &Element; E m ( x m &OverBar; - x E m &OverBar; ) T ( x m &OverBar; - x E m &OverBar; )
S E n = &Sigma; x n &Element; E n ( x n - x E n &OverBar; ) T ( x n - x E n &OverBar; )
将Em、En聚类El后的离差平方和为:
S E l = &Sigma; x l &Element; E l ( x l - x E l &OverBar; ) T ( x l - x E l &OverBar; )
那么合并后的离差平方和增量为:
W E m E n = S E l - S E m - S E n = n E m + n E n n E l ( x E m &OverBar; - x E n &OverBar; ) T ( x E m &OverBar; - x E n &OverBar; )
进而定义伪T统计量PST为:
PST = W E m E n ( S E m + S E n ) / ( n E m + n E n - 2 )
其中,分别表示空间实体Em和En所含空间实体数目;xm、xn和xl分别表示空间簇Em、En和El内的空间实体;分别表示空间簇Em、En和El内空间实体的属性均值;PST越大,说明合并Em、En为El后,离差平方和的增量Wmn与原空间簇Em、En的类内离差平方和的比值越大,即表明合并后的两个空间簇Em、En越分开,也就是上一层次聚类效果较好;
(3)针对步骤(1)得到的有效陆地气候区域,融合海洋气候指数进行顾及多约束的时序关联规则挖掘
3.1)受约于相关应用背景需要和领域知识,对气候时间序列进行离散化并从中提取感兴趣事件;例如对于降水时间序列,仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象,并确定因子属性和结果属性作为规则前件和后件,例如将海洋气候要素作为规则前件,陆地气候要素作为规则后件;
3.2)参数初始化:根据相关领域先验知识设置时间窗口宽度阈值min_win,时间延迟阈值time_lag,充分度阈值min_Suf,必要度阈值min_Nec;
3.3)针对步骤3.1)提取的感兴趣事件,探索性的对其施加时间窗口宽度约束,从而得到一系列的有效前、后件事件集;给定事件序列ES=<s,Ts,Te>,其中:s=<(A1,t1),(A2,t2),…,(An,tn)>表示事件集合,Ai隶属于不同事件类型ET,Ts和Te分别为ES的起始时间和结束时间;任意n个不同事件类型构成一个n元事件集EP=<ET1,ET2,…,ETn>,其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI;若事件集EPI中事件发生时间与结束时间之差,即时间窗口宽度win_width≤min_win,那么EPI即为EP的有效事件;分别针对3.1)中得到的前件和后件,提取得到有效前后件事件集;
3.4)记步骤3.3)得到的有效后件事件集的数目nc,顾及nc、min_Suf和min_Nec,对有效前件事件集进行筛选,保留数目位于区间[nc*min_Nec,nc/min_Suf]的有效前件事件集,以减少无效规则的产生;
3.5)针对两个前后件事件集EPA和EPC中的有效事件项EPIA和EPIC,可得到形如EPIA→EPIC的关联规则AR,给定某一有效前件EPIAi和有效后件EPICi,其中时间发生起始时间分别为ts和ts′,结束时间分别记为te和te’,若0<ts′-ts≤time_lag且te’-te>0,那么将EPIAi→EPICi定义为关联规则AR的一条有效项;进而,记AR的有效项中前件数目为na,后件数目为nc,若na/nc>min_Suf且nc/na>min_Nec,那么定义AR为一条有效关联规则;从而,采用以上策略提取所有的有效关联规则;
3.6)根据相关领域知识对得到的有效规则进行验证分析,最终从规则里面提取出潜在的模式和知识;
(4)对有效规则进行可视化显示,并输出最终结果文件。
CN201410176895.4A 2014-04-29 2014-04-29 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 Pending CN103942325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410176895.4A CN103942325A (zh) 2014-04-29 2014-04-29 一种融合气候分区思想的海陆气候事件关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410176895.4A CN103942325A (zh) 2014-04-29 2014-04-29 一种融合气候分区思想的海陆气候事件关联规则挖掘方法

Publications (1)

Publication Number Publication Date
CN103942325A true CN103942325A (zh) 2014-07-23

Family

ID=51189993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410176895.4A Pending CN103942325A (zh) 2014-04-29 2014-04-29 一种融合气候分区思想的海陆气候事件关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN103942325A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055689A (zh) * 2016-06-08 2016-10-26 中国科学院计算机网络信息中心 一种基于时序相关性的空间聚类方法
CN106250699A (zh) * 2016-08-04 2016-12-21 中国南方电网有限责任公司 Enso综合指标及其径流预测方法
CN106649801A (zh) * 2016-12-29 2017-05-10 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN107729293A (zh) * 2017-09-27 2018-02-23 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN112241614A (zh) * 2020-10-09 2021-01-19 广芯微电子(广州)股份有限公司 一种时钟延时链延时的检测方法、系统及电子设备
CN112241615A (zh) * 2020-10-09 2021-01-19 广芯微电子(广州)股份有限公司 一种数据平衡性时序的检测方法、系统及电子设备
CN113221385A (zh) * 2021-06-08 2021-08-06 上海交通大学 一种年代际预报的初始化方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212693A1 (en) * 2002-05-10 2003-11-13 Campos Marcos M. Rule generation model building
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212693A1 (en) * 2002-05-10 2003-11-13 Campos Marcos M. Rule generation model building
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
岳朝龙等: "《SAS系统与经济统计分析》", 31 July 2003 *
石岩等: "海陆气候事件关联规则挖掘方法", 《地球信息科学学报》 *
邓敏等: "时空聚类分析的普适性方法", 《中国科学 信息科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055689A (zh) * 2016-06-08 2016-10-26 中国科学院计算机网络信息中心 一种基于时序相关性的空间聚类方法
CN106250699A (zh) * 2016-08-04 2016-12-21 中国南方电网有限责任公司 Enso综合指标及其径流预测方法
CN106250699B (zh) * 2016-08-04 2019-02-19 中国南方电网有限责任公司 利用enso综合指标进行厄尔尼诺/拉尼娜等级划分及径流预测方法
CN106649801A (zh) * 2016-12-29 2017-05-10 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN106844585A (zh) * 2017-01-10 2017-06-13 广东精规划信息科技股份有限公司 一种基于多源物联网位置感知的时空关系分析系统
CN107729293A (zh) * 2017-09-27 2018-02-23 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN107729293B (zh) * 2017-09-27 2019-11-12 中南大学 一种基于多元自适应回归的地理空间异常探测方法
CN112241614A (zh) * 2020-10-09 2021-01-19 广芯微电子(广州)股份有限公司 一种时钟延时链延时的检测方法、系统及电子设备
CN112241615A (zh) * 2020-10-09 2021-01-19 广芯微电子(广州)股份有限公司 一种数据平衡性时序的检测方法、系统及电子设备
CN112241615B (zh) * 2020-10-09 2021-05-18 广芯微电子(广州)股份有限公司 一种数据平衡性时序的检测方法、系统及电子设备
CN113221385A (zh) * 2021-06-08 2021-08-06 上海交通大学 一种年代际预报的初始化方法及系统
CN113221385B (zh) * 2021-06-08 2022-09-23 上海交通大学 一种年代际预报的初始化方法及系统

Similar Documents

Publication Publication Date Title
CN103942325A (zh) 一种融合气候分区思想的海陆气候事件关联规则挖掘方法
CN112070286B (zh) 复杂地形流域的降水预报预警系统
Yang et al. Regional frequency analysis and spatio-temporal pattern characterization of rainfall extremes in the Pearl River Basin, China
Greve et al. Quantifying the ability of environmental parameters to predict soil texture fractions using regression-tree model with GIS and LIDAR data: The case study of Denmark
CN110059963A (zh) 一种基于模糊多态贝叶斯网络的隧道风险评价方法
CN112182234B (zh) 流域防洪规划数据知识图谱构建方法
CN113886917B (zh) 基于cnn-lstm模型的铁路沿线区域地面沉降预测预警方法
Lucas-Borja et al. Impacts of land-use and climate changes on surface runoff in a tropical forest watershed (Brazil)
Pham A novel classifier based on composite hyper-cubes on iterated random projections for assessment of landslide susceptibility
Wood et al. A 40-year climatology of extratropical transition in the eastern North Pacific
CN108520267A (zh) 一种基于时空特征的水文遥测数据异常检测方法
CN108268969A (zh) 基于遥感数据的区域经济发展形式分析与预测方法及装置
CN112508237A (zh) 基于数据分析的雨型区域划分方法和实时雨型预测方法
CN110490228A (zh) 一种基于cpp的水文模型参数动态率定方法
CN109285219B (zh) 一种基于dem的网格型水文模型网格演算次序编码方法
Ceresetti et al. Multiscale evaluation of extreme rainfall event predictions using severity diagrams
CN112233381B (zh) 一种基于机理和机器学习耦合的泥石流预警方法与系统
CN107944466A (zh) 一种基于分段思想的降雨偏差纠正方法
CN108182178A (zh) 基于事件文本数据挖掘的地下水水位分析方法与系统
CN112434441A (zh) 一种水文模型参数区域化方法
CN115630337A (zh) 基于大尺度气候遥相关的极端降雨归因的定量评估方法及系统
Zhang et al. Extreme historical droughts and floods in the Hanjiang River Basin, China, since 1426
Moore Aspects of uncertainty, reliability and risk in flood forecasting systems incorporating weather radar
Steffen et al. Clustering of historical floods observed on Iguaçu River, in União da Vitória, Paraná
Nagy et al. Estimation of catchment response time using a new automated event-based approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140723

WD01 Invention patent application deemed withdrawn after publication