CN103942325A - 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 - Google Patents
一种融合气候分区思想的海陆气候事件关联规则挖掘方法 Download PDFInfo
- Publication number
- CN103942325A CN103942325A CN201410176895.4A CN201410176895A CN103942325A CN 103942325 A CN103942325 A CN 103942325A CN 201410176895 A CN201410176895 A CN 201410176895A CN 103942325 A CN103942325 A CN 103942325A
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- mover
- climate
- overbar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005065 mining Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000001556 precipitation Methods 0.000 claims description 24
- 238000013316 zoning Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010998 test method Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 description 26
- 238000005192 partition Methods 0.000 description 9
- 238000007418 data mining Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000011164 ossification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。本发明通过对空间数据建立Delaunay三角网并施加整体和局部长边约束,获得合理稳健的空间邻近关系网,进而度量空间邻近实体间时间序列的相似性,进行层次聚类得到多层次聚类结果,基于伪T统计量分析获得较佳气候分区结果;纳入相关领域先验知识约束,分别从海洋气候指数和各陆地气候区域提取感兴趣气候事件,进而通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束,挖掘海陆气候事件间的有效关联规则。本发明在挖掘过程中可有效顾及多尺度效应得到有效气候区域,多重约束亦使得本发明在挖掘关联规则时具有高效性、针对性和实用性。
Description
技术领域
本发明涉及时空数据挖掘与分析技术领域,尤其涉及的是一种融合气候分区思想的海陆气候事件关联规则挖掘方法。
背景技术
近年来,全球气候变化导致异常气候事件频发,对人类的生活环境和经济发展带来严重负影响,研究表明海洋气候异常对陆地气候异常事件的发生具有重要的诱发作用。海陆气候数据通常以时间序列的形式记录海陆气候要素随时间的变化趋势,具有海量、多维、异质等特性,并隐含着大量未知的海陆气候关联模式。
许多学者为了发现海陆气候时间序列间隐藏的关联模式进行了大量研究,所提出的方法可大致分为两类:(1)特征值统计方法,该类方法直接针对海陆气候数据进行主成分分析、奇异值分解等统计手段得到特征序列,并进一步挖掘海陆气候序列间隐藏的关联模式;(2)数据挖掘方法,旨在从海量数据集中获取潜在的、有用的知识和模式,包括聚类分析、关联规则挖掘、数据建模预测分析、混合等内容。其中,时序关联规则挖掘技术可有效地从多维时间序列中发现事件间隐藏的关联模式,例如Mannilia提出WINEPI和MINEPI算法以及Harms等提出MOWCATL算法。特征值统计方法对于海量数据稳定性不高,且对噪声敏感,此类方法现已很少使用;数据挖掘方法虽然可弥补特征值统计方法存在的缺陷,但海量时空数据的自相关性导致大量冗余、无意义的规则出现。聚类技术可有效地顾及时空数据的相关性和异质性,并将海量数据集划分为若干有意义的簇,从而可有效压缩数据量,极大地有利于进一步的分析工作。然而,现有聚类方法大都在单一尺度下进行,忽视了时空数据的尺度特征,使得聚类结果无法反映尺度变换过程中时空信息的特征渐变规律,由此所得结果的实际有效性难以判别;另外,现有的时序关联规则挖掘方法大都未充分融合气象领域相关知识,且缺乏相应约束条件,从而难以得到有意义的规则。例如,大多时序关联规则挖掘方法一方面未顾及应用背景,难以提取有意义事件;另一方面,虽然对时间窗口和时间延迟进行了必要约束,但并未对规则前件和后件之间的充分度和必要度施加必要限制条件,从而使得得到的规则缺乏可信度。
发明内容
本发明所要解决的技术问题是针对现有技术存在的缺陷,解决海陆气候事件关联规则挖掘中,同时顾及多尺度效应以及多重约束所遇到的技术问题,提供了一种融合气候分区思想的海陆气候事件关联规则挖掘方法。
本发明的技术方案如下:
一种融合气候分区思想的海陆气候事件关联规则挖掘方法,其步骤如下:
(1)时间序列数据正态化检测与预处理
针对离散分布的空间数据以及每个空间实体所蕴含的时间序列,首先采用QQ图检验法进行时间序列数据正态化检测,若序列不服从正态分布则对其进行开根号处理,即:
Zi表示原始时间序列数据,Zi ’表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列;进而采用新的时间序列数据作为下一步分析对象;
(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区
2.1)对初始散点数据构造Delaunay三角网,进而对三角网施加整体边长约束和局部边长约束,从而精化每个点的空间邻域;其中,整体约束条件表达为CGlobal(Ei),表示边Ei的整体约束条件,利用下列公式进行计算:
其中,Mean(DT)表示三角网的平均边长;SD(DT)表示三角网所有边的边长标准差;|Ei|表示边Ei的边长值;
局部边长约束条件表达为表示与实体p连接的边Ej的局部约束条件,利用下列公式计算:
其中,Mean(NN(p))表示图Gi中,p的空间邻域内所有边的边长平均值;SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的边长标准差;Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值;
2.2)针对每个空间实体Em,用WARD法度量与其空间邻域实体En之间的距离利用下列公式计算:
其中,分别表示空间实体Em和En所含子实体数目(初始状态下所有实体仅含一个子实体);分别表示空间实体Em和En内所有子实体的属性均值;
2.3)对数据集中最相似的两个实体进行聚合成簇,用簇内所有实体属性均值作为簇的属性;
2.4)用聚合成的簇作为新实体,重复步骤2.2)和2.3),直到所有点聚合为一个整体,从而得到层次树和每一层的聚合结果;
2.5)从层次树中选择合适的区间结果进行伪T统计量分析,并从中选取合适的聚合结果;其中,空间簇Em、En的离差平方和分别为:
将Em、En聚类El后的离差平方和为:
那么合并后的离差平方和增量为:
进而定义伪T统计量PST为:
其中,分别表示空间实体Em和En所含空间实体数目;xm、xn和xl分别表示空间簇Em、En和El内的空间实体;分别表示空间簇Em、En和El内空间实体的属性均值;PST越大,说明合并Em、En为El后,离差平方和的增量Wmn与原空间簇Em、En的类内离差平方和的比值越大,即表明合并后的两个空间簇Em、En是很分开的,也就是上一层次聚类效果较好;
(3)针对步骤(1)得到的有效陆地气候区域,融合海洋气候指数进行顾及多约束的时序关联规则挖掘
3.1)受约于相关应用背景需要和领域知识,对气候时间序列进行离散化并从中提取感兴趣事件;例如对于降水时间序列,仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象,并确定因子属性和结果属性作为规则前件和后件,例如将海洋气候要素作为规则前件,陆地气候要素作为规则后件;
3.2)参数初始化:根据相关领域先验知识设置时间窗口宽度阈值min_win,时间延迟阈值time_lag,充分度阈值min_Suf,必要度阈值min_Nec;
3.3)针对步骤3.1)提取的感兴趣事件,探索性的对其施加时间窗口宽度约束,从而得到一系列的有效前、后件事件集;给定事件序列ES=<s,Ts,Te>,其中:s=<(A1,t1),(A2,t2),…,(An,tn)>表示事件集合,Ai隶属于不同事件类型ET,Ts和Te分别为ES的起始时间和结束时间;任意n个不同事件类型构成一个n元事件集EP=<ET1,ET2,…,ETn>,其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI;若事件集EPI中事件发生时间与结束时间之差,即时间窗口宽度win_width≤min_win,那么EPI即为EP的有效事件;分别针对3.1)中得到的前件和后件,提取得到有效前后件事件集;
3.4)记步骤3.3)得到的有效后件事件集的数目nc,顾及nc、min_Suf和min_Nec,对有效前件事件集进行筛选,保留数目位于区间[nc*min_Nec,nc/min_Suf]的有效前件事件集,以减少无效规则的产生;
3.5)针对两个前后件事件集EPA和EPC中的有效事件项EPIA和EPIC,可得到形如EPIA→EPIC的关联规则AR,给定某一有效前件EPIAi和有效后件EPICi,其中时间发生起始时间分别为ts和ts′,结束时间分别记为te和te’,若0<ts′-ts≤time_lag且te’-te>0,那么将EPIAi→EPICi定义为关联规则AR的一条有效项;进而,记AR的有效项中前件数目为na,后件数目为nc,若na/nc>min_Suf且nc/na>min_Nec,那么定义AR为一条有效关联规则;从而,采用以上策略提取所有的有效关联规则;
3.6)根据相关领域知识对得到的有效规则进行验证分析,最终从规则里面提取出潜在的模式和知识;
(4)对有效规则进行可视化显示,并输出最终结果文件。
步骤(2)中,优选地,采用顾及空间邻近的层次聚类方法得到有效气候区域。
步骤3.1)中,优选地,纳入相关领域先验知识约束,提取感兴趣事件集。
步骤3.3)中,优选地,纳入时间窗口宽度,获取有效前后件事件集。
步骤3.5)中,优选地,纳入时间延迟约束、最小充分度和最小必要度约束,挖掘有效关联规则。
本发明是一种需要较少的人为干预的海陆气候事件关联规则挖掘方法,借助顾及空间邻近的层次聚类方法顾及到多尺度效应,以提高气候分区的精度以及与自然规律的一致性,进而纳入多重约束条件进一步提高了海陆气候事件关联规则挖掘方法的实用性与可靠性。
本发明借助层次约束Delaunay三角网构建空间邻近关系,在此基础上采用层次聚类方法进行气候分区,即满足地理学第一定律,又顾及到多尺度效应;顾及多重约束挖掘海陆气候事件有效关联规则,避免了大量冗余规则的出现。与传统的时序关联规则方法比较,本发明能够在顾及多尺度效应基础上有效挖掘不同气候区域间的遥相关模式,且具有较高的运行效率。
附图说明
图1是融合气候分区思想的海陆气候事件关联规则挖掘方法的实现流程。
图2是一组降水时间序列数据QQ图检验;a:原始序列数据的QQ图;b:时间序列开根号处理后的QQ图。
图3是中国陆地区域降水分区实例;a:中国气象站点空间分布;b:原始Delaunay三角网;c:施加整体边长约束;d:施加局部边长约束;e:层次聚类结果伪T统计量分析;f:分区数为22的聚类结果;g:分区数为15的聚类结果;h:分区数为12的聚类结果;i:分区数为10的聚类结果。
图4是三个海洋气候指数序列;a:南方涛动指数SOI(SouthernOscillationIndex);b:太平洋十年涛动指数PDO(PacificDecadalOscillation);c:多变量ENSO指数MEI(MultivariateENSOIndex)。
图5是一组事件序列示例数据。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
实施例1
本发明的具体实施方案由以下几个步骤组成:
(1)时间序列数据正态化检测与预处理
对于不服从正态分布的时间序列数据,无法通过度量序列间的相似性进行聚类分析,为此首先利用QQ图分析对时间序列数据进行正态化检测。图2(a)为对某一气象站点所记录的降水序列绘制的QQ图,若数据服从正态分布,则其对应的QQ图近似在一条直线上,而此序列的QQ图明显偏离参照直线,由此可见其不服从正态分布;为此,对原始时间序列进行开根号处理可既保持序列间的相似性关系,又可使得序列近似服从正态分布,从而满足进一步的分析需求。如图2(b)所示,进行开根号处理后的时间序列对应的QQ图近似呈直线,即近似服从正态分布。
(2)根据整体和局部约束条件,构建合理、稳健的空间邻近关系
图3(a)为中国气象站点空间分布,其中包含554个站点数据,每个站点由一组时间序列构成其专题属性,本实验采用1982年1月-2007年12月共26年的月均降水数据作为分析对象。图3(b)为对气象站点构建的Delaunay三角网,图3(c)和(d)分别为对原始Delaunay三角网施加整体和局部约束后的空间邻近关系网。
(3)顾及空间邻近关系进行层次气候分区
基于步骤(2)构建的实体间空间邻近关系,融合层次聚类方法,每次将空间邻近且时间序列最相似的实体进行合并,从而形成聚类层次树。进而,采用伪T统计量从各层聚类结果中选择较佳结果。研究表明,对于具有N个空间实体的数据集,簇数是合理、有效的。为此,图3(e)绘制出簇数从23→22,22→21,…,2→1所对应的伪T统计量变化曲线,以及四个局部极大值点,图3(f)-(i)为相应的四个较佳分区结果,分区数分别为22,15,12和10。通过分析分区结果以及最大程度保留细节和归纳区域特征,选择分区数为15作为进一步分析对象。
(4)顾及相关领域先验知识,分别从海洋指数和各陆地气候区域中提取感兴趣事件。图4为SOI、PDO和MEI三种海洋气候指数1982年1月-2007年12月的时间序列曲线,表1和表2为基于先验知识,对三种海洋气候指数以及降水序列转化得到的标准化降水指数SPI进行离散化提取得到的事件。其中,需要进一步挖掘海洋气候事件与陆地干旱和洪涝事件间的关联规则。
表1三种海洋气候指数
表2标准化降水指数SPI(StandardizedPrecipitationIndex)
(5)顾及时间窗口宽度约束、时间延迟约束、充分度和必要度约束挖掘海陆气候事件有效关联规则。图5为一组事件序列示例数据,<A,24>为一个事件;<(D,20),(C,22),…,(D,35),20,37>为事件序列;<B,C>为一个二元事件集,<(B,23),(C,22)>、<(B,23),(C,34)>、<(B,32),(C,22)>、<(B,32),(C,34)>为<B,C>的项;<(B,32),(C,34)>的时间窗口宽度为2;<B,C>=><F,E>为一个时序关联规则。将前件时间窗口宽度阈值设置为6个月,后件采用时间尺度为3个月的SPI指数,时间延迟设置为6个月,充分度和必要度阈值设置为0.4,通过施加时间窗口宽度约束、时间延迟约束、充分度和必要度约束,可得到如表3、表4和表5所示的一系列有效关联规则(以各海洋气候指数与云南地区异常降水事件间有效关联规则为例)。
表3SOI指数与云南地区异常降水事件关联规则
SOI指数 | 异常降水事件 | 充分度 | 必要度 |
(-∞,-1.5] | 轻度干旱 | 0.45 | 0.82 |
(-1,-0.5] | 轻度干旱 | 0.59 | 0.8 |
(-0.5,0.5) | 轻度干旱 | 0.73 | 0.72 |
[1.5,+∞) | 轻度干旱 | 0.49 | 0.71 |
(-1,-0.5],(-0.5,0.5) | 轻度干旱 | 0.55 | 0.67 |
(-0.5,0.5),[1.5,+∞) | 轻度干旱 | 0.49 | 0.56 |
(-∞,-1.5] | 轻度洪涝 | 0.47 | 0.8 |
(-1,-0.5] | 轻度洪涝 | 0.5 | 0.7 |
(-0.5,0.5) | 轻度洪涝 | 0.82 | 0.72 |
[1.5,+∞) | 轻度洪涝 | 0.45 | 0.59 |
(-1,-0.5],(-0.5,0.5) | 轻度洪涝 | 0.58 | 0.61 |
(-0.5,0.5),[1.5,+∞) | 轻度洪涝 | 0.44 | 0.56 |
表4PDO指数与云南地区异常降水事件关联规则
PDO指数 | 异常降水事件 | 充分度 | 必要度 |
[1,1.5) | 轻度干旱 | 0.48 | 0.8 |
[1,1.5) | 轻度洪涝 | 0.44 | 0.7 |
表5MEI指数与云南地区异常降水事件关联规则
MEI指数 | 异常降水事件 | 充分度 | 必要度 |
[1.5,+∞) | 中度干旱 | 0.42 | 0.45 |
(-0.5,0.5) | 轻度干旱 | 0.75 | 0.8 |
[1.5,1) | 轻度干旱 | 0.45 | 0.82 |
(-0.5,0.5) | 轻度洪涝 | 0.69 | 0.66 |
[0.5,1) | 轻度洪涝 | 0.45 | 0.8 |
(6)有效规则输出与可视化
将有效规则输出为TXT格式文件,其中每个陆地气候区域保存为一个独立文件,包含四列数据,第一列为相关联的海洋气候指数以及事件,第二列为该陆地气候区域发生的异常气候事件,第三列和第四列分别为充分度和必要度。可对每个文件进行查看和进行深入分析研究。
近年来,我国受异常气候事件的负面影响极为严重,通过研究海洋气候指数与陆地异常气候事件间的关联机制,对于有效预测异常气候事件的发生具有重要的指导价值。进一步总结应用本发明挖掘得到的海洋气候指数对我国陆地区域异常降水事件的有效关联规则,可得到以下知识:
1)SOI指数与我国陆地异常降水事件:
①仅与我国陆地区域轻度干旱和洪涝事件关联性较强;
②<C(-1,-0.5]>和<D(-0.5,0.5)>与我国大部分地区轻度异常降水事件关联较强;
③<A(-∞,-1.5]>、<B(-1.5,-1]>和<G[1.5,+∞)>与我国部分地区轻度异常降水事件关联较强。
2)PDO指数与我国陆地异常降水事件
①<D(-1,1)>和<E[1,1.5)>与我国大部分地区轻度异常降水事件关联较强;
②<A(-∞,-2]>与江苏、安徽地区重度干旱事件关联较强;
③<A(-∞,-2]>和<B(-2,-1.5]>与广东、广西地区重度干旱事件关联较强;
④<C(-1.5,-1]>和<G[2,+∞)>分别与内蒙、宁夏、山西一带中度干旱和洪涝事件关联较强;
⑤<G[2,+∞)>与内蒙、新疆一带中度干旱事件关联较强;
⑥<C(-1.5,-1]>与广东、福建一带中度干旱事件关联较强。
3)MEI指数与我国陆地异常降水事件
①<D(-0.5,0.5)>和<E[0.5,1)>与我国大部分地区轻度异常降水事件关联较强;
②<B(-1.5,-1]>、<C(-1,-0.5]>和<F[1,1.5)>与我国部分地区轻度异常降水事件关联较强;
③<G[1.5,+∞)>与云南地区中度干旱事件关联较强;
④<C(-1,-0.5]>与山东、辽宁一带,以及长江湖北段区域中度干旱事件关联较强;
⑤<F[1,1.5)>与四川地区、海南地区中度干旱事件关联较强。
此外,气象领域已有知识表明,当SOI指数极大或极小时,频繁导致我国降水的异常事件发生,本文得到的知识与此高度吻合,这证明了本发明在挖掘海陆气候事件关联规则应用的实用性和有效性。同时,本发明还发现一些未知知识,尤其是PDO指数和MEI指数与我国某些区域的极端异常降水事件存在强关联,这可为气象学领域的深度研究,以及异常气候事件的预测提供必要依据。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (1)
1.一种融合气候分区思想的海陆气候事件关联规则挖掘方法,其特征是,其步骤如下:
(1)时间序列数据正态化检测与预处理
针对离散分布的空间数据以及每个空间实体所蕴含的时间序列,首先采用QQ图检验法进行时间序列数据正态化检测,若序列不服从正态分布则对其进行开根号处理,即:
Zi表示原始时间序列数据,Zi ’表示原始时间序列数据各个时间点所记数值进行开根号处理后形成的新时间序列;进而采用新的时间序列数据作为下一步分析对象;
(2)采用顾及空间邻近的层次聚类方法进行陆地气候分区
2.1)对初始散点数据构造Delaunay三角网,进而对三角网施加整体边长约束和局部边长约束,从而精化每个点的空间邻近域;其中,整体约束条件表达为CGlobal(Ei),表示边Ei的整体约束条件,利用下列公式进行计算:
其中,Mean(DT)表示三角网的平均边长;SD(DT)表示三角网所有边的边长标准差;|Ei|表示边Ei的边长值;
局部边长约束条件表达为表示与实体p连接的边Ej的局部约束条件,利用下列公式计算:
其中,Mean(NN(p))表示图Gi中,p的空间邻域内所有边的边长平均值;SD(pj)为图Gi中,pj的一阶邻域(即与p直接连接的边)内所有边的边长标准差;Mean(SDi)表示图Gi中,所有实体的一阶邻域内边长标准差的平均值;
2.2)针对每个空间实体Em,用WARD法度量与其空间邻域实体En之间的距离利用下列公式计算:
其中,分别表示空间实体Em和En所含子实体数目(初始状态下所有实体仅含一个子实体);分别表示空间实体Em和En内所有子实体的属性均值;
2.3)对数据集中最相似的两个实体进行聚合成簇,用簇内所有实体属性均值作为簇的属性;
2.4)用聚合成的簇作为新实体,重复步骤2.2)和2.3),直到所有点聚合为一个整体,从而得到层次树和每一层的聚合结果;
2.5)从层次树中选择合适的区间结果进行伪T统计量分析,并从中选取合适的聚合结果;其中,空间簇Em、En的离差平方和分别为:
将Em、En聚类El后的离差平方和为:
那么合并后的离差平方和增量为:
进而定义伪T统计量PST为:
其中,分别表示空间实体Em和En所含空间实体数目;xm、xn和xl分别表示空间簇Em、En和El内的空间实体;分别表示空间簇Em、En和El内空间实体的属性均值;PST越大,说明合并Em、En为El后,离差平方和的增量Wmn与原空间簇Em、En的类内离差平方和的比值越大,即表明合并后的两个空间簇Em、En越分开,也就是上一层次聚类效果较好;
(3)针对步骤(1)得到的有效陆地气候区域,融合海洋气候指数进行顾及多约束的时序关联规则挖掘
3.1)受约于相关应用背景需要和领域知识,对气候时间序列进行离散化并从中提取感兴趣事件;例如对于降水时间序列,仅提取出其中的异常强、弱降水值所在时间点作为下一步研究对象,并确定因子属性和结果属性作为规则前件和后件,例如将海洋气候要素作为规则前件,陆地气候要素作为规则后件;
3.2)参数初始化:根据相关领域先验知识设置时间窗口宽度阈值min_win,时间延迟阈值time_lag,充分度阈值min_Suf,必要度阈值min_Nec;
3.3)针对步骤3.1)提取的感兴趣事件,探索性的对其施加时间窗口宽度约束,从而得到一系列的有效前、后件事件集;给定事件序列ES=<s,Ts,Te>,其中:s=<(A1,t1),(A2,t2),…,(An,tn)>表示事件集合,Ai隶属于不同事件类型ET,Ts和Te分别为ES的起始时间和结束时间;任意n个不同事件类型构成一个n元事件集EP=<ET1,ET2,…,ETn>,其中分别隶属于这n个事件类型的n个事件构成此事件集的项EPI;若事件集EPI中事件发生时间与结束时间之差,即时间窗口宽度win_width≤min_win,那么EPI即为EP的有效事件;分别针对3.1)中得到的前件和后件,提取得到有效前后件事件集;
3.4)记步骤3.3)得到的有效后件事件集的数目nc,顾及nc、min_Suf和min_Nec,对有效前件事件集进行筛选,保留数目位于区间[nc*min_Nec,nc/min_Suf]的有效前件事件集,以减少无效规则的产生;
3.5)针对两个前后件事件集EPA和EPC中的有效事件项EPIA和EPIC,可得到形如EPIA→EPIC的关联规则AR,给定某一有效前件EPIAi和有效后件EPICi,其中时间发生起始时间分别为ts和ts′,结束时间分别记为te和te’,若0<ts′-ts≤time_lag且te’-te>0,那么将EPIAi→EPICi定义为关联规则AR的一条有效项;进而,记AR的有效项中前件数目为na,后件数目为nc,若na/nc>min_Suf且nc/na>min_Nec,那么定义AR为一条有效关联规则;从而,采用以上策略提取所有的有效关联规则;
3.6)根据相关领域知识对得到的有效规则进行验证分析,最终从规则里面提取出潜在的模式和知识;
(4)对有效规则进行可视化显示,并输出最终结果文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410176895.4A CN103942325A (zh) | 2014-04-29 | 2014-04-29 | 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410176895.4A CN103942325A (zh) | 2014-04-29 | 2014-04-29 | 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103942325A true CN103942325A (zh) | 2014-07-23 |
Family
ID=51189993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410176895.4A Pending CN103942325A (zh) | 2014-04-29 | 2014-04-29 | 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103942325A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055689A (zh) * | 2016-06-08 | 2016-10-26 | 中国科学院计算机网络信息中心 | 一种基于时序相关性的空间聚类方法 |
CN106250699A (zh) * | 2016-08-04 | 2016-12-21 | 中国南方电网有限责任公司 | Enso综合指标及其径流预测方法 |
CN106649801A (zh) * | 2016-12-29 | 2017-05-10 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN107729293A (zh) * | 2017-09-27 | 2018-02-23 | 中南大学 | 一种基于多元自适应回归的地理空间异常探测方法 |
CN112241614A (zh) * | 2020-10-09 | 2021-01-19 | 广芯微电子(广州)股份有限公司 | 一种时钟延时链延时的检测方法、系统及电子设备 |
CN112241615A (zh) * | 2020-10-09 | 2021-01-19 | 广芯微电子(广州)股份有限公司 | 一种数据平衡性时序的检测方法、系统及电子设备 |
CN113221385A (zh) * | 2021-06-08 | 2021-08-06 | 上海交通大学 | 一种年代际预报的初始化方法及系统 |
CN115149639A (zh) * | 2022-06-17 | 2022-10-04 | 江苏未来智慧信息科技有限公司 | 光伏电厂智能控制系统与智能控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212693A1 (en) * | 2002-05-10 | 2003-11-13 | Campos Marcos M. | Rule generation model building |
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
-
2014
- 2014-04-29 CN CN201410176895.4A patent/CN103942325A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212693A1 (en) * | 2002-05-10 | 2003-11-13 | Campos Marcos M. | Rule generation model building |
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
Non-Patent Citations (3)
Title |
---|
岳朝龙等: "《SAS系统与经济统计分析》", 31 July 2003 * |
石岩等: "海陆气候事件关联规则挖掘方法", 《地球信息科学学报》 * |
邓敏等: "时空聚类分析的普适性方法", 《中国科学 信息科学》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055689A (zh) * | 2016-06-08 | 2016-10-26 | 中国科学院计算机网络信息中心 | 一种基于时序相关性的空间聚类方法 |
CN106250699B (zh) * | 2016-08-04 | 2019-02-19 | 中国南方电网有限责任公司 | 利用enso综合指标进行厄尔尼诺/拉尼娜等级划分及径流预测方法 |
CN106250699A (zh) * | 2016-08-04 | 2016-12-21 | 中国南方电网有限责任公司 | Enso综合指标及其径流预测方法 |
CN106649801A (zh) * | 2016-12-29 | 2017-05-10 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN106844585A (zh) * | 2017-01-10 | 2017-06-13 | 广东精规划信息科技股份有限公司 | 一种基于多源物联网位置感知的时空关系分析系统 |
CN107729293B (zh) * | 2017-09-27 | 2019-11-12 | 中南大学 | 一种基于多元自适应回归的地理空间异常探测方法 |
CN107729293A (zh) * | 2017-09-27 | 2018-02-23 | 中南大学 | 一种基于多元自适应回归的地理空间异常探测方法 |
CN112241614A (zh) * | 2020-10-09 | 2021-01-19 | 广芯微电子(广州)股份有限公司 | 一种时钟延时链延时的检测方法、系统及电子设备 |
CN112241615A (zh) * | 2020-10-09 | 2021-01-19 | 广芯微电子(广州)股份有限公司 | 一种数据平衡性时序的检测方法、系统及电子设备 |
CN112241615B (zh) * | 2020-10-09 | 2021-05-18 | 广芯微电子(广州)股份有限公司 | 一种数据平衡性时序的检测方法、系统及电子设备 |
CN113221385A (zh) * | 2021-06-08 | 2021-08-06 | 上海交通大学 | 一种年代际预报的初始化方法及系统 |
CN113221385B (zh) * | 2021-06-08 | 2022-09-23 | 上海交通大学 | 一种年代际预报的初始化方法及系统 |
CN115149639A (zh) * | 2022-06-17 | 2022-10-04 | 江苏未来智慧信息科技有限公司 | 光伏电厂智能控制系统与智能控制方法 |
CN115149639B (zh) * | 2022-06-17 | 2024-07-30 | 江苏未来智慧信息科技有限公司 | 光伏电厂智能控制系统与智能控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103942325A (zh) | 一种融合气候分区思想的海陆气候事件关联规则挖掘方法 | |
Szczypta et al. | Verification of the new ECMWF ERA-Interim reanalysis over France | |
Hajian et al. | Multifractal detrended cross-correlation analysis of sunspot numbers and river flow fluctuations | |
Hirsch | An evaluation of some record reconstruction techniques | |
Hwang et al. | Circulations and eddies over the South China Sea derived from TOPEX/Poseidon altimetry | |
Shah et al. | Modelling the effects of spatial variability in rainfall on catchment response. 1. Formulation and calibration of a stochastic rainfall field model | |
CN102128022B (zh) | 钻井工程预警方法及系统 | |
CN113886917B (zh) | 基于cnn-lstm模型的铁路沿线区域地面沉降预测预警方法 | |
Clymo | Preliminary survey of the peat-bog Hummell Knowe Moss using various numerical methods | |
Calif et al. | Intermittency study of high frequency global solar radiation sequences under a tropical climate | |
CN113487123B (zh) | 高光谱监测与gis耦合山洪灾害动态风险评估方法 | |
CN104766090B (zh) | 一种基于bemd和sofm的探地雷达数据可视化方法 | |
Wood et al. | A 40-year climatology of extratropical transition in the eastern North Pacific | |
Wen et al. | Construction of 3D drought structures of meteorological drought events and their spatio-temporal evolution characteristics | |
CN114049545B (zh) | 一种基于点云体素的台风定强方法、系统、设备及介质 | |
Weedon et al. | Evaluating the performance of hydrological models via cross-spectral analysis: case study of the Thames Basin, United Kingdom | |
Liu et al. | The June 2012 North American derecho: A testbed for evaluating regional and global climate modeling systems at cloud‐resolving scales | |
Guo et al. | Groundwater depth forecasting using configurational entropy spectral analyses with the optimal input | |
Ceresetti et al. | Multiscale evaluation of extreme rainfall event predictions using severity diagrams | |
Zheng et al. | Numerical simulation of typhoon-induced storm surge along Jiangsu coast, Part I: Analysis of tropical cyclone | |
CN103886177A (zh) | 一种基于空间网格预测雷击火日发生概率的方法 | |
CN105205572A (zh) | 基于EMD分解和Elman算法的光伏出力预测方法 | |
Lin et al. | Tropical Cyclones Related Wind Power on Oceanic Near‐Inertial Oscillations | |
CN107944466A (zh) | 一种基于分段思想的降雨偏差纠正方法 | |
CN117171128A (zh) | 一种基于四水耦合模型的水生生物保护阈值识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140723 |
|
WD01 | Invention patent application deemed withdrawn after publication |