CN107908891A - 一种基于arima‑svr的水文时间序列异常值检测方法 - Google Patents
一种基于arima‑svr的水文时间序列异常值检测方法 Download PDFInfo
- Publication number
- CN107908891A CN107908891A CN201711210505.0A CN201711210505A CN107908891A CN 107908891 A CN107908891 A CN 107908891A CN 201711210505 A CN201711210505 A CN 201711210505A CN 107908891 A CN107908891 A CN 107908891A
- Authority
- CN
- China
- Prior art keywords
- time series
- arima
- value
- svr
- hydrological time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于ARIMA‑SVR的水文时间序列异常值检测方法,包括以下步骤:首先获取水文时间序列数据,对水文时间序列进行ARIMA拟合,ARIMA模型可以很好的拟合数据的线性部分,但当数据中存在非线性部分时,拟合效果较差;然后得到ARIMA部分的残差,用10折交叉验证的方法寻找出SVR最佳的gamma、cost和核函数的组合;最后将两部分拟合值相加得到最终的预测值,并求出置信度为p的置信区间,将预测值与置信区间比较,在置信区间之外的就判定为异常值。本发明为水利相关从业者提供了一种寻找水文时间序列中异常值的方法,水文时间序列中的异常值检测对于防汛抗旱等工作具有重要的指导意义。
Description
技术领域
本发明涉及一种基于统计学习和机器学习领域的水文时间序列异常值检测的模型构建方法,具体地说,是综合了经典的支持向量回归、统计学中的ARIMA模型等技术对时间序列中的值进行检测。
背景技术
异常值检测是水文数据挖掘中的重要组成部分,水位的变化受到季节和其他突变因素的影响,同时还包含着噪声因素,单一模型的检测能力有限,传统的ARIMA模型预测非线性时间序列精度不够高,支持向量回归结构复杂,易产生“过拟合”的问题。对这些方法的单独优化并不能克服单种方法的局限性。因此,结合多种模型形成的异常值检测方法已经成为时间序列异常值检测的方向。
发明内容
发明目的:针对现有的时间序列异常值方法不具有针对性、灵敏度和特异度相对较低的缺点,根据水文时间序列的波动特点,采用ARIMA模型和SVR相结合的方法对水文时间序列进行异常检测,提高水文时间序列异常检测的灵敏度和特异度。
技术方案:一种基于ARIMA-SVR的水文时间序列异常值检测方法,利用第三方软件R语言作为程序编制和模型仿真检查的工具,构建三个模块,分别是ARIMA建模模块、SVR残差建模模块、组合预测值得到置信度为p的置信区间模块。首先对水文时间序列进行平稳性检验,对通过平稳性检验的采用ARIMA模型对其进行处理;因为经过ARIMA函数拟合的残差序列总体平稳且线性不可分,因此采用SVR对残差进行拟合预测。最终将ARIMA对序列总体趋势的预测和SVR对残差的预测相加并得到置信度为p的置信区间,实现根据置信区间判断异常值的方法。
主要实现步骤如下:
步骤1:取待检测值的前n个值,形成水文时间序列,对水文时间序列进行平稳性检验,如果通过,进入下一步;如果不通过,对序列持续差分直到差分后的序列满足平稳性检验;
步骤2:通过步骤1得到水文时间序列的差分阶数d;以AIC信息准则为准,限定自回归的阶数p和移动平均阶数q的范围,遍历(p,q)组合,找出具有最小AIC值的(p,q)组合;
步骤3:将上述步骤中确定的最优p,d,q应用于ARIMA模型预测t时刻的值,同时得到置信度为α的置信区间;
步骤4:将步骤3中的得到的预测值与实际值相减得到残差,作为训练集输入到SVR;
步骤5:针对非线性回归问题,先使用非线性函数把训练集中的样本数据映射到一个高维特征空间,并在这个高维特征空间进行线性回归。训练样本(xi,yi)满足如下条件:yi(xi*ω+b)-1+ξi≥0其中ξi称为松弛变量,ω为法向量决定了超平面的方向,b为位移项,且满足ξi≥0,i=1,2,3…n。
步骤6:采用10折交叉验证的方法,寻找出最佳的gamma、cost和核函数的组合以达到最佳的残差拟合。因为经过ARIMA函数拟合的残差序列总体平稳且线性不可分,因此本文选用径向基函数为核函数。
步骤7:利用步骤6中得到的最佳参数构建SVR模型,然后预测出残差。
步骤8:将步骤3和步骤7得到的预测值相加,得到最终的预测值同时计算出置信度为α的置信区间,其中置信度定义了预测值在置信区间范围内的预期概率。
步骤9:比较实际值与置信区间的关系,如果实际值在预测区间之外则为异常值,否则为正常值。
优选地,所述步骤2中,通过确定差分阶数d,限定p和q的范围,通过实验,得到具有最小AIC值的(p,q)组合。
优选地,所述步骤3中,水文时间序列通常都显示出一定的趋势性和周期性,因此使用ARIMA模型进行预测具有良好效果。
优选地,所述步骤5和6中,通过确定SVR的ε-不敏感损失函数和核函数,来达到对残差拟合,因为水文序列不仅受季节等周期性因素影响,还受到许多复杂因素的影响,使其含有非线性相关部分,因此使用SVR能很好的对非线性部门拟合。
优选地,常见的组合异常值检测方法大多采用一种方法来进行检测,当数据比较复杂,如水文时间序列既含有线性相关部分又含有非线性部分,单一算法往往不能取得很好效果,使用组合模型可以有效提高异常检测的灵敏度和特异度。
本发明采用上述技术方案,具有以下有益效果:
对于水文时间序列的异常值检测,引入了一种新的组合模型方法,该方法能够综合ARIMA和SVR模型,充分利用两种模型的优点,提高了异常检测的灵敏度和特异度;两个模型的并行分工能够提高检测的灵敏度和特异度,降低了支持向量回归带来的过拟合问题,提高了ARIMA模型的准确性和有效性;组合模型的耦合方式与传统按权值系数最优化的组合模型不同,分别利用两种模型针对线性相关和非线性相关部门的优点达到提高异常检测的灵敏度和特异度。
附图说明
图1为本发明实施例的体系结构与方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于ARIMA-SVR的水文时间序列异常值检测方法,主要实现步骤如下:
步骤1:采用的数据集为XXX水文站的日平均水位数据,当检测某点是否为异常点时,使用其前90天的数据进行平稳性检验,如果通过,进入下一步;如果不通过,对序列持续差分直到差分后的序列满足平稳性检验;
步骤2:通过步骤1得到水文时间序列的差分阶数d;以AIC信息准则为准,限定自回归的阶数p和移动平均阶数q的范围,遍历(p,q)组合,找出具有最小AIC值的(p,q)组合;
步骤3:将上述步骤中确定的最优p,d,q应用于ARIMA模型预测t时刻的值,同时得到置信度为α的置信区间;
步骤4:将步骤3中的得到的预测值与实际值相减得到残差,作为训练集输入到SVR;
步骤5:针对非线性回归问题,先使用非线性函数把训练数据映射到一个高维特征空间,并在这个高维特征空间进行线性回归。训练样本(xi,yi)满足如下条件yi(xi*ω+b)-1+ξi≥0其中ξi称为松弛变量,且满足ξi≥0,i=1,2,3…90。ω为法向量决定了超平面的方向,b为位移项。
步骤6:采用10折交叉验证的方法,其中ε-不敏感损失函数选择核函数选择径向基函数,寻找出最佳的gamma、cost的组合,以达到最佳的残差拟合;因为经过ARIMA函数拟合的残差序列总体平稳且线性不可分。因此本文选用径向基函数为核函数;
步骤7:利用步骤6中得到的最佳参数构建SVR模型,然后预测出残差。
步骤8:将步骤3和步骤7得到的预测值相加,得到最终的预测值同时计算出置信度为α的置信区间,其中置信度定义了预测值在置信区间范围内的预期概率。
步骤9:比较实际值与置信区间的关系,如果实际值在预测区间之外则为异常值,否则为正常值。
方法比较
通过将本方法与单一模型作对比,在灵敏度(Sensitivity)和特异度(Specificity)分别有5%和3%的提升,其中灵敏度表示正确检测出的异常样本比例,特异度为正确检测出的正常样本比例,从中我们可以发现组合模型提高了水文时间序列异常值检测的灵敏度和特异度。
Claims (5)
1.一种基于ARIMA-SVR的水文时间序列异常值检测方法,其特征在于,包括如下步骤:
步骤1:取待检测值的前n个值,形成水文时间序列,对水文时间序列进行平稳性检验,如果通过,进入下一步;如果不通过,对序列持续差分直到差分后的序列满足平稳性检验;
步骤2:通过步骤1得到模型的差分阶数d;以AIC信息准则为准,限定自回归的阶数p和移动平均阶数q的范围,遍历(p,q)组合,找出具有最小AIC值的(p,q)组合;
步骤3:将上述步骤中确定的最优p,d,q应用于ARIMA模型预测t时刻的值,同时得到置信度为α的置信区间;
步骤4:将步骤3中的得到的预测值与实际值相减得到残差,作为训练集输入到SVR;
步骤5:针对非线性回归问题,先使用非线性函数把训练集中的样本数据映射到一个高维特征空间,并在这个高维特征空间进行线性回归;训练样本xi满足如下条件:yi(xi*ω+b)-1+ξi≥0其中ξi称为松弛变量,且满足ξi≥0,i=1,2,3…n;
步骤6:采用10折交叉验证的方法,其中ε-不敏感损失函数选择核函数选择径向基函数,寻找出最佳的gamma、cost的组合;
步骤7:利用步骤6中得到的最佳参数构建SVR模型,然后预测出残差;
步骤8:将步骤3和步骤7得到的预测值相加,得到最终的预测值同时计算出置信度为α的置信区间,其中置信度定义了预测值在置信区间范围内的预期概率;
步骤9:比较实际值与置信区间的关系,如果实际值在预测区间之外则为异常值,否则为正常值。
2.如权要求1所述的基于ARIMA-SVR的水文时间序列异常值检测方法,其特征在于,步骤6中选用径向基函数为核函数。
3.如权要求1所述的基于ARIMA-SVR的水文时间序列异常值检测方法,其特征在于,最优p,d,q应用于ARIMA模型即等式 预测t时刻的值,同时得到置信度为α的置信区间。
4.如权要求1所述的基于ARIMA-SVR的水文时间序列异常值检测方法,其特征在于,所述步骤6中,对于得到的残差序列,ε-不敏感损失函数和核函数是支持向量回归中最重要的两个函数,使用10折交叉验证的方法得到ε-不敏感损失函数和核函数。
5.如权要求1所述的基于ARIMA-SVR的水文时间序列异常值检测方法,其特征在于,所述步骤8中,将两组模型预测得到的值相加并得到最终的置信区间,从而可以判断异常点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711210505.0A CN107908891B (zh) | 2017-11-28 | 2017-11-28 | 一种基于arima-svr的水文时间序列异常值检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711210505.0A CN107908891B (zh) | 2017-11-28 | 2017-11-28 | 一种基于arima-svr的水文时间序列异常值检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107908891A true CN107908891A (zh) | 2018-04-13 |
CN107908891B CN107908891B (zh) | 2019-10-18 |
Family
ID=61848988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711210505.0A Active CN107908891B (zh) | 2017-11-28 | 2017-11-28 | 一种基于arima-svr的水文时间序列异常值检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107908891B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920429A (zh) * | 2018-06-12 | 2018-11-30 | 河海大学 | 一种水位动态监测的异常数据分析方法 |
CN109376892A (zh) * | 2018-06-12 | 2019-02-22 | 电子科技大学 | 一种基于设备所处生命周期阶段的设备状态预测方法 |
CN110083803A (zh) * | 2019-04-22 | 2019-08-02 | 水利部信息中心 | 基于时间序列arima模型取水异常检测方法与系统 |
CN110969556A (zh) * | 2019-09-30 | 2020-04-07 | 上海仪电(集团)有限公司中央研究院 | 机器学习多维度多模型融合河道水质异常检测方法及装置 |
CN111258863A (zh) * | 2018-12-03 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 数据异常检测方法、装置、服务器和计算机可读存储介质 |
CN112149296A (zh) * | 2020-09-17 | 2020-12-29 | 中国科学院地理科学与资源研究所 | 一种判定水文时间序列平稳性类型的方法 |
CN112285287A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN112506990A (zh) * | 2020-12-03 | 2021-03-16 | 河海大学 | 一种基于时空信息的水文数据异常检测方法 |
CN113189503A (zh) * | 2021-01-28 | 2021-07-30 | 南斗六星系统集成有限公司 | 一种电动汽车电池多级故障预警方法及系统 |
CN115131943A (zh) * | 2022-07-07 | 2022-09-30 | 杭州申昊科技股份有限公司 | 一种基于深度学习的声光联动预警方法 |
CN115545112A (zh) * | 2022-10-17 | 2022-12-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN116909754A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 基于组合模型的移动终端cpu短期负载预测方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662876A (zh) * | 2000-11-09 | 2005-08-31 | Spss公司 | 构建时间序列模型的系统与方法 |
CN103268525A (zh) * | 2013-06-04 | 2013-08-28 | 南京大学 | 一种基于wd-rbf的水文时间序列模拟预测方法 |
CN104504475A (zh) * | 2014-12-24 | 2015-04-08 | 上海大学 | 基于ar*-svm混合建模的雾霾时间序列预测方法 |
CN104794112A (zh) * | 2014-01-16 | 2015-07-22 | 中国移动通信集团山西有限公司 | 时间序列处理方法及装置 |
-
2017
- 2017-11-28 CN CN201711210505.0A patent/CN107908891B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1662876A (zh) * | 2000-11-09 | 2005-08-31 | Spss公司 | 构建时间序列模型的系统与方法 |
CN103268525A (zh) * | 2013-06-04 | 2013-08-28 | 南京大学 | 一种基于wd-rbf的水文时间序列模拟预测方法 |
CN104794112A (zh) * | 2014-01-16 | 2015-07-22 | 中国移动通信集团山西有限公司 | 时间序列处理方法及装置 |
CN104504475A (zh) * | 2014-12-24 | 2015-04-08 | 上海大学 | 基于ar*-svm混合建模的雾霾时间序列预测方法 |
Non-Patent Citations (5)
Title |
---|
PING WANG 等: "A novel hybrid-Garch model based on ARIMA and SVM for PM2.5 concentrations forecasting", 《ATMOSPHERIC POLLUTION RESEARCH》 * |
余宇峰 等: "基于滑动窗口预测的水文时间序列异常检测", 《计算机应用》 * |
刘千 等: "基于扩展符号聚集近似的水文时间序列异常挖掘", 《计算机应用研究》 * |
张昭 等: "基于特征选择和支持向量机的异常检测方法", 《计算机工程与设计》 * |
陈强 等: "基于J2EE 组件技术的水文时间序列相似性挖掘系统", 《计算机与现代化》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376892A (zh) * | 2018-06-12 | 2019-02-22 | 电子科技大学 | 一种基于设备所处生命周期阶段的设备状态预测方法 |
CN108920429A (zh) * | 2018-06-12 | 2018-11-30 | 河海大学 | 一种水位动态监测的异常数据分析方法 |
CN111258863A (zh) * | 2018-12-03 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 数据异常检测方法、装置、服务器和计算机可读存储介质 |
CN111258863B (zh) * | 2018-12-03 | 2023-09-22 | 北京嘀嘀无限科技发展有限公司 | 数据异常检测方法、装置、服务器和计算机可读存储介质 |
CN110083803A (zh) * | 2019-04-22 | 2019-08-02 | 水利部信息中心 | 基于时间序列arima模型取水异常检测方法与系统 |
CN110083803B (zh) * | 2019-04-22 | 2023-09-29 | 水利部信息中心 | 基于时间序列arima模型取水异常检测方法与系统 |
CN110969556B (zh) * | 2019-09-30 | 2023-11-21 | 上海仪电(集团)有限公司中央研究院 | 机器学习多维度多模型融合河道水质异常检测方法及装置 |
CN110969556A (zh) * | 2019-09-30 | 2020-04-07 | 上海仪电(集团)有限公司中央研究院 | 机器学习多维度多模型融合河道水质异常检测方法及装置 |
CN112149296A (zh) * | 2020-09-17 | 2020-12-29 | 中国科学院地理科学与资源研究所 | 一种判定水文时间序列平稳性类型的方法 |
CN112149296B (zh) * | 2020-09-17 | 2023-06-20 | 中国科学院地理科学与资源研究所 | 一种判定水文时间序列平稳性类型的方法 |
CN112285287A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN112285287B (zh) * | 2020-10-19 | 2022-08-16 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN112506990B (zh) * | 2020-12-03 | 2022-10-04 | 河海大学 | 一种基于时空信息的水文数据异常检测方法 |
CN112506990A (zh) * | 2020-12-03 | 2021-03-16 | 河海大学 | 一种基于时空信息的水文数据异常检测方法 |
CN113189503A (zh) * | 2021-01-28 | 2021-07-30 | 南斗六星系统集成有限公司 | 一种电动汽车电池多级故障预警方法及系统 |
CN115131943B (zh) * | 2022-07-07 | 2023-10-31 | 杭州申昊科技股份有限公司 | 一种基于深度学习的声光联动预警方法 |
CN115131943A (zh) * | 2022-07-07 | 2022-09-30 | 杭州申昊科技股份有限公司 | 一种基于深度学习的声光联动预警方法 |
CN115545112A (zh) * | 2022-10-17 | 2022-12-30 | 水利部信息中心 | 一种大量地下水实时自动监测数据自动识别和处理的方法 |
CN116909754A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 基于组合模型的移动终端cpu短期负载预测方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107908891B (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908891B (zh) | 一种基于arima-svr的水文时间序列异常值检测方法 | |
CN104778298B (zh) | 基于egmm的高斯过程回归软测量建模方法 | |
CN103617466B (zh) | 一种商品需求预测模型的综合评价方法 | |
CN108593260A (zh) | 光缆线路故障定位和检测方法及终端设备 | |
CN106897774B (zh) | 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法 | |
CN109472403B (zh) | 一种集合经验模态分解及遥相关的中长期径流预报方法 | |
CN107842713A (zh) | 基于knn‑svr的海底管道漏磁数据缺失插补方法 | |
CN113268883A (zh) | 一种基于pca-abc-svm模型的海底原油管道腐蚀速率预测方法 | |
CN108830417A (zh) | 一种基于arma和回归分析的生活能源消费预测方法及系统 | |
Manhas et al. | Reusability evaluation model for procedurebased software systems | |
CN114498619A (zh) | 一种风电功率预测方法及装置 | |
US10553304B2 (en) | Method and apparatus for reducing chemical reaction mechanisms | |
Zhao et al. | Evaluating influences of the Manwan Dam and climate variability on the hydrology of the Lancang-Mekong River, Yunnan Province, southwest China | |
CN112860545B (zh) | 一种软件缺陷检测方法与装置 | |
CN114186489A (zh) | 基于排序网络的成品油管道异常检测方法、系统及设备 | |
CN110188399A (zh) | 一种基于多相关序列的大坝安全监测单测点评价方法 | |
CN112380243A (zh) | 基于机器学习的sql查询选择度预估方法 | |
CN111622274A (zh) | 山区巨粒土高填方地基基础沉降预测方法及系统 | |
CN116757321A (zh) | 太阳直接辐射量预测方法、系统、设备及存储介质 | |
CN111859783B (zh) | 水压预测方法、系统、存储介质、设备、城市供水系统 | |
CN114525372B (zh) | 基于多模态融合的高炉状态监测方法及装置 | |
Yao et al. | An energy efficiency evaluation method based on energy baseline for chemical industry | |
CN114925529A (zh) | 凝汽器数字孪生模型的状态校正方法、系统、设备及介质 | |
CN115099464A (zh) | 一种基于油嘴模型流量系数预测的油井产量预测方法 | |
CN107368941A (zh) | 一种湿地生态系统服务价值大数据评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |