CN107944146A

CN107944146A - 基于主成分分析的多元水文时间序列匹配模型构建方法

Info

Publication number: CN107944146A
Application number: CN201711210985.0A
Authority: CN
Inventors: 娄渊胜; 盖振; 叶枫; 孙建树
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-04-20

Abstract

本发明公开了一种基于主成分分析的多元水文时间序列匹配模型构建方法，基于主成分分析(PCA)和动态时间弯曲(DTW)方法进行多元水文时间序列相似性匹配的组合模型构建。首先对原始数据进行同构处理，这里采用Z‑score标准化方法。接着对处理后的数据进行分段聚合近似(PAA)处理，对经过PAA处理后的数据进行PCA处理，经过这两次处理，数据在时间维度和变量维度都实现了降维。最后使用加权的DTW方法进行相似性匹配，匹配出与给定时间序列最相似的时间序列。本发明提高了相似性匹配的准确率和时间效率，为水文预报、水文数据分析提供服务，对水利信息化和水利现代化的需求有较高的应用价值。

Description

基于主成分分析的多元水文时间序列匹配模型构建方法

技术领域

本发明涉及一种基于数据挖掘和水文时间序列相似性匹配的模型构建方法，具体地说，是一种对多元水文时间序列进行相似性匹配的方法，从历史水文时间序列中匹配出与给定时间序列最相似的序列。

背景技术

随着信息技术的发展，水文数据的种类和数量急剧增加，逐渐呈现出多元、大量和多态的特征。根据多元水文时间序列的特点，选用高效的数据挖掘算法，从大量的水文时间序列数据中提取有用的信息和知识，为解决水文领域的突出问题提供新的分析方法和科学的决策支持。

传统水文数据挖掘方法面对如今数量巨大、类型复杂的水文数据资料，往往显得无能为力。目前对于水文时间序列的研究大多是基于一元水文时间序列，由于多元水文时间序列不同维度之间的复杂联系，其研究工作开展得相对缓慢，目前很多工作还处于起步阶段。

发明内容

发明目的：针对现有的多元水文时间序相似性匹配方法效率和准确率较差、不具有针对性的缺点，本发明提供一种基于主成分分析的多元水文时间序列匹配模型构建方法。

技术方案：为实现上述发明目的，本发明使用第三方软件R作为程序编制和模型仿真预测的工具，分为三个部分，分别是数据预处理、模式表示和相似性匹配。由于水文时间序列大多来源于传感器的记录，通常具有很高的维度和很长的序列，并且包含大量噪音，因此需要对其进行预处理，降低对相似性匹配的干扰。模式表示包括对数据进行PAA和PCA处理，实现时间序列在时间维度和变量维度上的降维。相似性匹配采用加权的DTW作为距离度量的方法。

与现有一些技术相比，本发明的有益效果是在多元水文时间序列的相似性匹配问题中，提高了多元水文时间序列匹配的效率和准确性。

一种基于主成分分析的多元水文时间序列匹配模型构建方法，主要实现步骤如下：

步骤1：对水文时间序列数据进行标准化处理，统一数据单位；可以根据实际需求选择合适的标准化方法，目的是为了消除由于单位不同可能带来的影响；

步骤2：对标准化后的时间序列应用分段聚合近似(PAA)方法，，得到多元时间序列的矩阵表示X_n×m(m表示变量个数，n表示时间长度)，在应用PAA方法时，根据实际情况选择合适的分段长度，对于时间序列数据挖掘，只需关注序列的整体形态和趋势。如果只需要表示时间序列的大致形态，可以选择较长的分段长度，来获得较高的数据压缩率，提高挖掘效率。如果要保留较多时间序列的细节，则应该选择较短分段长度。

步骤3：对经过步骤2处理后的时间序列X_n×m进行主成分分析，首先需要计算数据集中变量之间的协方差，得到一个协方差矩阵S_m×m(m表示多元时间序列中变量个数)，再通过奇异值分解对协方差矩阵进行特征值和特征向量分解，选择累计方差贡献率达到预设值的前k个特征值按大小排序，并将其对应的特征向量组合成特征向量矩阵U_m×k；

步骤4：把步骤2得到的数据X_n×m映射到特征向量矩阵上Y_n×k＝X_n×mU_m×k，实现降维处理，同时把特征向量的方差贡献率作为权重w。

步骤5：使用步骤4得到的方差贡献率作为权重w，将给定的时间序列与步骤4映射后的数据Y_n×k使用加权的DTW方法进行相似性匹配。即：

其中X[i:-]表示由矩阵X的第i个列向量到最后一个列向量组成的子序列。

D_base(a_i,b_j)表示向量a_i和b_j之间的基距离，计算方式为：

w_i、w_j是向量a_i、b_j对应的特征向量的贡献率，这里作为权重。

步骤6：通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。

优选地，所述步骤2中，采用PAA方法，将长度为s的时间序列平均分成v段，每段序列具有相同的长度l，并且利用每段序列的均值来近似表示该序列段，是一个压缩比例为l＝s/v的数据降维过程，由于多元水文时间序列各变量之间存在相关性，因此对全部相关变量同时进行分段操作，符合多元水文时间序列的特点。

优选地，所述步骤3中，在多元水文时间序列中，部分维度是噪音冗余不相关的，保留它们反而降低了整体模型的性能。多元时间序列是集成数据，也就是说它们的各维度高度相关。通过主成分分析既可以降低数据维数，又保留了原数据的大部分信息。该方法将原始数据看作一个整体，通过把数据从高维空间向低维空间投影的方式起到降维的作用。

优选地，所述步骤5中，使用加权的DTW作为多元水文时间序列距离度量方法，多元时间序列在进行模式匹配时，各主成分的重要程度不同，因此使用权重进行区分。由于数据集在很大程度上进行了约减，所以匹配效率有较大的提升。

本发明采用上述技术方案，具有以下有益效果：

对于多元时间序列的相似性匹配，引入了一种新的组合预测模型，该模型在多元水文时间序列特点的基础上，把当前高效的方法综合起来，充分利用各方法的优点，不仅提高了匹配的效率，在匹配的准确率上也有很大的提高。

附图说明

图1为本发明实施例的体系结构与方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于主成分分析的多元水文时间序列匹配模型构建方法，包括如下步骤：

步骤1：本实例以X河流域中的四个站点：三XX、红XX、划XX、葛X的日均水位数据作为数据集，提取其中较完整的从2010年至2016年的数据，对其进行标准化处理，这里采用Z-score标准化方法：X_i＝(X_i–μ_i)/σ_i，其中μ_i和σ_i分别为单变量时间序列X_i的均值和标准差，经过预处理和标准化处理后共10228条记录；

步骤2：取分段长度4，进行分段聚合近似PAA处理，处理后数据集共有2557条记录，压缩率为75％；

步骤3：对经过步骤2处理后的数据集中的数据进行主成分分析，首先需要计算数据集中变量之间的协方差，得到一个协方差矩阵，再通过奇异值分解对协方差矩阵进行特征值和特征向量分解，这里选择累计贡献率达到90％的前k个特征值按大小排序，并将其对应的特征向量组合成特征向量矩阵；

步骤4：把步骤2得到的数据映射到特征向量矩阵上，实现了降维处理，同时把特征向量的贡献率作为权重。

步骤5：使用加权DTW方法，把给定的时间序列与经过步骤4处理后的数据进行相似性匹配。

Claims

1.一种基于主成分分析的多元水文时间序列匹配模型构建方法，其特征在于，包括如下步骤：

步骤1：对水文时间序列数据进行标准化处理，统一数据单位；

步骤2：对标准化后的时间序列应用分段聚合近似(PAA)方法，对多元时间序列进行分段，得到多元时间序列的矩阵表示X_n×m；

步骤3：对经过步骤2处理后的时间序列的矩阵X_n×m进行主成分分析；

步骤4：把步骤2得到的时间序列的矩阵X_n×m映射到特征向量矩阵上，实现降维处理，同时把特征向量的方差贡献率作为权重；

步骤5：把步骤4得到的方差贡献率作为权重，将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配；

2.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法，其特征在于，主成分分析为：首先需要计算数据集中变量之间的协方差，得到一个协方差矩阵，再通过奇异值分解对协方差矩阵进行特征值和特征向量分解，选择累计贡献率达到预设值的前k个特征值按大小排序，并将其对应的特征向量组合成特征向量矩阵。

3.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法，其特征在于，将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配，即：

4.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法，其特征在于，D_base(a_i,b_j)表示向量a_i和b_j之间的基距离，计算方式为：

5.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法，其特征在于所述步骤2中，为了保持多元水文时间序列的相关性，因此对全部相关变量同时进行分段操作，采用PAA方法，将长度为s的时间序列平均分成v段，每段序列具有相同的长度l，并且利用每段序列的均值来近似表示该序列段，是一个压缩比例为l＝s/v的数据降维过程，符合多元水文时间序列的特点。