CN107944146A - 基于主成分分析的多元水文时间序列匹配模型构建方法 - Google Patents
基于主成分分析的多元水文时间序列匹配模型构建方法 Download PDFInfo
- Publication number
- CN107944146A CN107944146A CN201711210985.0A CN201711210985A CN107944146A CN 107944146 A CN107944146 A CN 107944146A CN 201711210985 A CN201711210985 A CN 201711210985A CN 107944146 A CN107944146 A CN 107944146A
- Authority
- CN
- China
- Prior art keywords
- time series
- polynary
- data
- principal component
- component analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Abstract
本发明公开了一种基于主成分分析的多元水文时间序列匹配模型构建方法,基于主成分分析(PCA)和动态时间弯曲(DTW)方法进行多元水文时间序列相似性匹配的组合模型构建。首先对原始数据进行同构处理,这里采用Z‑score标准化方法。接着对处理后的数据进行分段聚合近似(PAA)处理,对经过PAA处理后的数据进行PCA处理,经过这两次处理,数据在时间维度和变量维度都实现了降维。最后使用加权的DTW方法进行相似性匹配,匹配出与给定时间序列最相似的时间序列。本发明提高了相似性匹配的准确率和时间效率,为水文预报、水文数据分析提供服务,对水利信息化和水利现代化的需求有较高的应用价值。
Description
技术领域
本发明涉及一种基于数据挖掘和水文时间序列相似性匹配的模型构建方法,具体地说,是一种对多元水文时间序列进行相似性匹配的方法,从历史水文时间序列中匹配出与给定时间序列最相似的序列。
背景技术
随着信息技术的发展,水文数据的种类和数量急剧增加,逐渐呈现出多元、大量和多态的特征。根据多元水文时间序列的特点,选用高效的数据挖掘算法,从大量的水文时间序列数据中提取有用的信息和知识,为解决水文领域的突出问题提供新的分析方法和科学的决策支持。
传统水文数据挖掘方法面对如今数量巨大、类型复杂的水文数据资料,往往显得无能为力。目前对于水文时间序列的研究大多是基于一元水文时间序列,由于多元水文时间序列不同维度之间的复杂联系,其研究工作开展得相对缓慢,目前很多工作还处于起步阶段。
发明内容
发明目的:针对现有的多元水文时间序相似性匹配方法效率和准确率较差、不具有针对性的缺点,本发明提供一种基于主成分分析的多元水文时间序列匹配模型构建方法。
技术方案:为实现上述发明目的,本发明使用第三方软件R作为程序编制和模型仿真预测的工具,分为三个部分,分别是数据预处理、模式表示和相似性匹配。由于水文时间序列大多来源于传感器的记录,通常具有很高的维度和很长的序列,并且包含大量噪音,因此需要对其进行预处理,降低对相似性匹配的干扰。模式表示包括对数据进行PAA和PCA处理,实现时间序列在时间维度和变量维度上的降维。相似性匹配采用加权的DTW作为距离度量的方法。
与现有一些技术相比,本发明的有益效果是在多元水文时间序列的相似性匹配问题中,提高了多元水文时间序列匹配的效率和准确性。
一种基于主成分分析的多元水文时间序列匹配模型构建方法,主要实现步骤如下:
步骤1:对水文时间序列数据进行标准化处理,统一数据单位;可以根据实际需求选择合适的标准化方法,目的是为了消除由于单位不同可能带来的影响;
步骤2:对标准化后的时间序列应用分段聚合近似(PAA)方法,,得到多元时间序列的矩阵表示Xn×m(m表示变量个数,n表示时间长度),在应用PAA方法时,根据实际情况选择合适的分段长度,对于时间序列数据挖掘,只需关注序列的整体形态和趋势。如果只需要表示时间序列的大致形态,可以选择较长的分段长度,来获得较高的数据压缩率,提高挖掘效率。如果要保留较多时间序列的细节,则应该选择较短分段长度。
步骤3:对经过步骤2处理后的时间序列Xn×m进行主成分分析,首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵Sm×m(m表示多元时间序列中变量个数),再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,选择累计方差贡献率达到预设值的前k个特征值按大小排序,并将其对应的特征向量组合成特征向量矩阵Um×k;
步骤4:把步骤2得到的数据Xn×m映射到特征向量矩阵上Yn×k=Xn×mUm×k,实现降维处理,同时把特征向量的方差贡献率作为权重w。
步骤5:使用步骤4得到的方差贡献率作为权重w,将给定的时间序列与步骤4映射后的数据Yn×k使用加权的DTW方法进行相似性匹配。即:
其中X[i:-]表示由矩阵X的第i个列向量到最后一个列向量组成的子序列。
Dbase(ai,bj)表示向量ai和bj之间的基距离,计算方式为:
wi、wj是向量ai、bj对应的特征向量的贡献率,这里作为权重。
步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。
优选地,所述步骤2中,采用PAA方法,将长度为s的时间序列平均分成v段,每段序列具有相同的长度l,并且利用每段序列的均值来近似表示该序列段,是一个压缩比例为l=s/v的数据降维过程,由于多元水文时间序列各变量之间存在相关性,因此对全部相关变量同时进行分段操作,符合多元水文时间序列的特点。
优选地,所述步骤3中,在多元水文时间序列中,部分维度是噪音冗余不相关的,保留它们反而降低了整体模型的性能。多元时间序列是集成数据,也就是说它们的各维度高度相关。通过主成分分析既可以降低数据维数,又保留了原数据的大部分信息。该方法将原始数据看作一个整体,通过把数据从高维空间向低维空间投影的方式起到降维的作用。
优选地,所述步骤5中,使用加权的DTW作为多元水文时间序列距离度量方法,多元时间序列在进行模式匹配时,各主成分的重要程度不同,因此使用权重进行区分。由于数据集在很大程度上进行了约减,所以匹配效率有较大的提升。
本发明采用上述技术方案,具有以下有益效果:
对于多元时间序列的相似性匹配,引入了一种新的组合预测模型,该模型在多元水文时间序列特点的基础上,把当前高效的方法综合起来,充分利用各方法的优点,不仅提高了匹配的效率,在匹配的准确率上也有很大的提高。
附图说明
图1为本发明实施例的体系结构与方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于主成分分析的多元水文时间序列匹配模型构建方法,包括如下步骤:
步骤1:本实例以X河流域中的四个站点:三XX、红XX、划XX、葛X的日均水位数据作为数据集,提取其中较完整的从2010年至2016年的数据,对其进行标准化处理,这里采用Z-score标准化方法:Xi=(Xi–μi)/σi,其中μi和σi分别为单变量时间序列Xi的均值和标准差,经过预处理和标准化处理后共10228条记录;
步骤2:取分段长度4,进行分段聚合近似PAA处理,处理后数据集共有2557条记录,压缩率为75%;
步骤3:对经过步骤2处理后的数据集中的数据进行主成分分析,首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵,再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,这里选择累计贡献率达到90%的前k个特征值按大小排序,并将其对应的特征向量组合成特征向量矩阵;
步骤4:把步骤2得到的数据映射到特征向量矩阵上,实现了降维处理,同时把特征向量的贡献率作为权重。
步骤5:使用加权DTW方法,把给定的时间序列与经过步骤4处理后的数据进行相似性匹配。
步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。
Claims (5)
1.一种基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,包括如下步骤:
步骤1:对水文时间序列数据进行标准化处理,统一数据单位;
步骤2:对标准化后的时间序列应用分段聚合近似(PAA)方法,对多元时间序列进行分段,得到多元时间序列的矩阵表示Xn×m;
步骤3:对经过步骤2处理后的时间序列的矩阵Xn×m进行主成分分析;
步骤4:把步骤2得到的时间序列的矩阵Xn×m映射到特征向量矩阵上,实现降维处理,同时把特征向量的方差贡献率作为权重;
步骤5:把步骤4得到的方差贡献率作为权重,将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配;
步骤6:通过计算在数据集中匹配出与给定时间序列最为相似即距离最小的一个或者多个时间序列。
2.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,主成分分析为:首先需要计算数据集中变量之间的协方差,得到一个协方差矩阵,再通过奇异值分解对协方差矩阵进行特征值和特征向量分解,选择累计贡献率达到预设值的前k个特征值按大小排序,并将其对应的特征向量组合成特征向量矩阵。
3.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,将给定的时间序列与步骤4映射后的数据使用加权的DTW方法进行相似性匹配,即:
其中X[i:-]表示由矩阵X的第i个列向量到最后一个列向量组成的子序列。
4.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于,Dbase(ai,bj)表示向量ai和bj之间的基距离,计算方式为:
wi、wj是向量ai、bj对应的特征向量的贡献率,这里作为权重。
5.如权利要求1所述的基于主成分分析的多元水文时间序列匹配模型构建方法,其特征在于所述步骤2中,为了保持多元水文时间序列的相关性,因此对全部相关变量同时进行分段操作,采用PAA方法,将长度为s的时间序列平均分成v段,每段序列具有相同的长度l,并且利用每段序列的均值来近似表示该序列段,是一个压缩比例为l=s/v的数据降维过程,符合多元水文时间序列的特点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711210985.0A CN107944146A (zh) | 2017-11-28 | 2017-11-28 | 基于主成分分析的多元水文时间序列匹配模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711210985.0A CN107944146A (zh) | 2017-11-28 | 2017-11-28 | 基于主成分分析的多元水文时间序列匹配模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107944146A true CN107944146A (zh) | 2018-04-20 |
Family
ID=61949268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711210985.0A Pending CN107944146A (zh) | 2017-11-28 | 2017-11-28 | 基于主成分分析的多元水文时间序列匹配模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944146A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492825A (zh) * | 2018-11-26 | 2019-03-19 | 中国水利水电科学研究院 | 基于互信息和主成分分析筛选因子的中长期预报方法 |
CN116450711A (zh) * | 2023-06-20 | 2023-07-18 | 山东科技大学 | Gnss坐标时间序列数据流匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488790A (zh) * | 2013-10-08 | 2014-01-01 | 河海大学 | 基于加权borda计数法的多元时间序列相似分析方法 |
CN103853821A (zh) * | 2014-02-21 | 2014-06-11 | 河海大学 | 一种面向多用户协作的数据挖掘平台的构建方法 |
CN104462217A (zh) * | 2014-11-09 | 2015-03-25 | 浙江大学 | 一种基于分段统计近似表示的时间序列相似性度量方法 |
CN104850740A (zh) * | 2015-05-06 | 2015-08-19 | 浙江大学 | 基于动态时间弯曲的数据流模式匹配方法 |
FR3032786A1 (fr) * | 2015-02-17 | 2016-08-19 | Schneider Electric Ind Sas | Systeme de traitement de donnees et de modelisation pour l'analyse de la consommation energetique d'un site |
-
2017
- 2017-11-28 CN CN201711210985.0A patent/CN107944146A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488790A (zh) * | 2013-10-08 | 2014-01-01 | 河海大学 | 基于加权borda计数法的多元时间序列相似分析方法 |
CN103853821A (zh) * | 2014-02-21 | 2014-06-11 | 河海大学 | 一种面向多用户协作的数据挖掘平台的构建方法 |
CN104462217A (zh) * | 2014-11-09 | 2015-03-25 | 浙江大学 | 一种基于分段统计近似表示的时间序列相似性度量方法 |
FR3032786A1 (fr) * | 2015-02-17 | 2016-08-19 | Schneider Electric Ind Sas | Systeme de traitement de donnees et de modelisation pour l'analyse de la consommation energetique d'un site |
CN104850740A (zh) * | 2015-05-06 | 2015-08-19 | 浙江大学 | 基于动态时间弯曲的数据流模式匹配方法 |
Non-Patent Citations (1)
Title |
---|
ZHEN GAI 等: "Research on Pattern Matching Method of Multivariate Hydrological Time Series", 《COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492825A (zh) * | 2018-11-26 | 2019-03-19 | 中国水利水电科学研究院 | 基于互信息和主成分分析筛选因子的中长期预报方法 |
CN116450711A (zh) * | 2023-06-20 | 2023-07-18 | 山东科技大学 | Gnss坐标时间序列数据流匹配方法 |
CN116450711B (zh) * | 2023-06-20 | 2023-08-18 | 山东科技大学 | Gnss坐标时间序列数据流匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778854B (zh) | 基于轨迹和卷积神经网络特征提取的行为识别方法 | |
US10558885B2 (en) | Determination method and recording medium | |
JP4697670B2 (ja) | 識別用データ学習システム、学習装置、識別装置及び学習方法 | |
CN110309343B (zh) | 一种基于深度哈希的声纹检索方法 | |
CN103854016B (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
CN110059768A (zh) | 用于街景理解的融合点与区域特征的语义分割方法及系统 | |
CN108021908B (zh) | 人脸年龄段识别方法及装置、计算机装置及可读存储介质 | |
CN102324047A (zh) | 基于稀疏核编码skr的高光谱图像地物识别方法 | |
CN104679818A (zh) | 一种视频关键帧提取方法及系统 | |
CN109582813A (zh) | 一种文物展品的检索方法、装置、设备和存储介质 | |
CN109388727A (zh) | 一种基于聚类的bgp人脸快速检索方法 | |
CN110636445A (zh) | 基于wifi的室内定位方法、装置、设备及介质 | |
CN104881449A (zh) | 基于流形学习数据压缩哈希的图像检索方法 | |
CN111695604A (zh) | 一种图像可信度的确定方法、装置及电子设备、存储介质 | |
CN108561127B (zh) | 一种基于随机模拟的地层压力预测方法 | |
CN116258874A (zh) | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 | |
CN107944146A (zh) | 基于主成分分析的多元水文时间序列匹配模型构建方法 | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN114239083A (zh) | 一种基于图神经网络的高效状态寄存器识别方法 | |
CN111612076B (zh) | 基于DCL和Cascade的图像精细识别方法 | |
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
CN104166837B (zh) | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 | |
CN113344792B (zh) | 一种图像生成方法、装置及电子设备 | |
CN112381615B (zh) | 基于用户重复行为模式挖掘的短序列推荐方法 | |
CN108256516A (zh) | 一种区域车牌识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |