CN106951680A - 一种水文时间序列异常模式检测方法 - Google Patents
一种水文时间序列异常模式检测方法 Download PDFInfo
- Publication number
- CN106951680A CN106951680A CN201710092513.3A CN201710092513A CN106951680A CN 106951680 A CN106951680 A CN 106951680A CN 201710092513 A CN201710092513 A CN 201710092513A CN 106951680 A CN106951680 A CN 106951680A
- Authority
- CN
- China
- Prior art keywords
- subsequence
- time series
- water level
- abnormal
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开一种水文时间序列异常模式检测方法,包括以下步骤:步骤1:采集历年的水位数据,根据时间的顺序,以年为单位组成每年的水位时间序列;步骤2:对每年水位时间序列进行分割,产生水位子序列;步骤3:水位子序列进行线性分段,形成维度低的水位子序列;步骤4:对步骤3中获得的水位子序列进行分组,将同时间段的子序列划分为一组;步骤5:在同一组子序列中结合平均变化距离和积累变化距离进行异常子序列的检测。本发明提供的方法不仅计算量小,有效缩短了检测的时间,同时获得的结果准确性更高,有效的避免了检测失败的可能。采用本发明提供方法能够更好的对水文进行研究和观察。
Description
技术领域
本发明属于数据处理领域,特别涉及一种水文时间序列异常模式检测方法。
背景技术
水文是指自然界中水的变化、运动等的各种现象,对水文进行研究在水资源开发利用、工程建设管理、农业灌溉、城市用水、航运等方面发挥了重要作用。在对水文进行研究时可以通过发现站点监测的历年水位数据中的异常变化,从而发现水文过程变化规律。对于历年水位数据中的异常变化的检测主要是水文时间序列异常检测。
时间序列异常检测主要分成针对时间序列中异常点的检测和异常模式的检测。从一般意义上来说,时间序列中一个点的异常,是指在一条时间序列上与其它序列点存在显著差异的、具有异常特征的序列点;而模式异常是指在这条时间序列上与其它模式存在显著差异的、具有异常行为的模式。时间序列中的模式一般是指一段具有某种特殊变化过程的子序列。目前已有的各种时间序列异常检测的方法,包括生物学方法、基于频率的方法、机器学习方法、基于特征空间的方法等。生物学方法从生物的免疫系统的机制中获得灵感的将该思想映射到异常检测上来,这种基于生物学的时间序列异常模式检测方法的主要缺陷是,当正常的数据变得多种多样,那么可能产生的正常模式的数目也同样增加,这会导致产生不出任何用于负选择过程的异己,最终会使得选择过程失败,检测不出任何异常模式。基于频率的方法采用后缀树来编码时间序列中所有出现的模式,用马尔科夫模型(Markovmodel)预测没有被观测到的模式期望发生的概率,然后根据用户给定的阈值来判断模式的奇异性,即检测出异常的模式,这样的方法检测出的结果不准确。机器学习的方法目前相关研究方法主要包括两大类:人工神经网络和支持向量机。基于特征空间的方法一般又分成两种:(1)一种方法是将时间序列分成等长的子序列,然后将子序列映射为n维空间中的点,然后采用普通数据集合中的异常点检测方法发现异常。这种方法的一个缺点是序列中的点一般较多,距离的计算和检测的时间消耗是相当可观的。(2)另一种方法是从时间序列中抽取特征,然后在特征空间中应用普通数据集合中的异常点检测方法来发现异常。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供了一种准确性高,检测速度快,运算量小的水文时间序列异常模式检测方法。
发明内容:为解决上述技术问题,本发明提出一种水文时间序列异常模式检测方法,包括以下步骤:
步骤1:采集历年的水位数据,根据时间的顺序,以年为单位组成每年的水位时间序列;
步骤2:对每年水位时间序列进行分割,产生水位子序列;
步骤3:水位子序列进行线性分段,形成维度低的水位子序列;主要通过提取主要特征,从而降低维度;
步骤4:对步骤3中获得的水位子序列进行分组,将同时间段的子序列划分为一组;
步骤5:在同一组子序列中结合平均变化距离和积累变化距离进行异常子序列的检测。
进一步,所述步骤2中采用滑动窗口机制对每年水位时间序列进行分割,产生水位子序列。这样划分出的子序列是等长的,更易于执行对应时期相同的子序列之间距离的比较计算。
进一步,所述步骤3中通过分析逐段聚集平均的方法对每年的水位时间序列进行线性分段;这样更加简单直观。
进一步,所述步骤5中对异常子序列检测的方法为,包括以下步骤:
步骤51:根据公式计算组内子序列之间的平均变化距离MC;其中,si表示第i个子序列,n表示子序列的总数,D为子序列之间的距离度量函数;
步骤52:确定si邻近子序列的个数k,根据公式计算子序列si与近邻子序列之间的累积变化距离AC;其中,si表示第i个子序列,sNk表示第k个近邻子序列,wk表示k个邻近子序列的权值,D为子序列之间的距离度量函数;
步骤53:判断AC与MC的大小,若AC>MC,则当前子序列si可能为异常子序列,否则视为正常子序列。
进一步,所述子序列之间的距离度量函数采用动态时间序列弯曲距离函数。
进一步,还包括步骤6:将检测得到的异常子序列采用曲线方式进行图形展示并进行评估。这样得到的检测结果更加的准确并且直观。
进一步,近邻子序列的总数k的取值大于3,且小于子序列数量的一半n/2。这样检测出的结果更加的准确。
工作原理:本发明结合水文时间序列的特点,给出水文时间序列异常模式的定义,通过水文时间子序列累积变化距离和平均变化距离的检测出水文时间序列异常模式。
有益效果:与现有技术相比,本发明提供的方法计算量小,有效缩短了检测的时间;本发明中的异常阈值根据已有序列来确定,能够获得的结果的准确性更高,有效的避免了检测失败的可能。在水文领域,不同流域受地理位置和环境影响,其异常的阈值是不同的,本发明的阈值根据采集的数据自身确定,能够满足不同流域的异常模式检测,因此,采用本发明提供方法能够更好的对水文进行研究和观察。
附图说明
图1为水位时间序列异常子序列检测总体流程图;
图2为检测一组内的异常水位时间子序列流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步解释。
如图1所示,本发明提供了一种水文时间序列异常模式检测方法,主要包括以下步骤:
步骤11:水位时间序列。首先以年为单位,读取原始水位数据,构造水位时间序列。将采集的1年水位数据按照时间等间隔(如,天,小时等)排列,构成水位时间序列。
步骤12:构造水位时间序列的子序列。对逐年的水位时间序列使用长度为w的滑动窗口,构造子序列,其中,每年的水位时间序列的长度为l。这样形成的子序列是等长的。使用滑动窗口时,每次向前移动一个单位,因此,各个相邻子序列间大部分是重叠的,这样长度为l的时间序列,会产生l-w+1个子序列。分析人员根据需要研究的模式长度,来确定子序列的长度,如需要研究一个汛期的异常变动,可以选择w为60,或者如需要研究太湖水位7月份的波动情况,可选择w为31。
步骤13:线性分段。对步骤12中的子序列进行线性分段,实现降维。采用PAA(Piecewise Aggregate Approximation,通过分析逐段聚集平均,简称PAA)进行线性分段,长度为w的水位子序列q转换成长度为m的子序列s,每个点的值为原始序列中连续的p个点均值,s[j]=(q[(j-1)*p+1]+…+q[j*p])/p,j=1,2,…,w/p,s[j]为子序列s的第j个点的值,q[j]为子序列q的第j个点的值。使用PAA方法分段的原因是简单直观,且划分出的子序列是等长的,这样易于执行对应时期相同的子序列之间距离的比较计算。p取值由分析人员确定,一般w为p的整数倍。这样可以提高计算速度,同时保留了原始序列的主要信息。
步骤14:对步骤13产生的所有年份时间序列的子序列进行分组。构造好子序列后,对子序列进行分组,将对应时间相同的,即起始时间相同的子序列分在一组中。如,2015年7月10日-7月20日的子序列和2016年7月10日-7月20日的子序列等分在一组中。
步骤15:检测同一组内的异常子序列。计算组内子序列之间的平均变化距离,以此作为异常阈值,针对每个子序列,计算其与邻近子序列之间的累积变化距离,如果超过平均变化距离,则为异常子序列。如图2所示,具体包括如下步骤:
步骤151:读取同组中所有子序列的相关参数,进入步骤152;
步骤152:根据公式与步骤151中读取的参数计算一组中每个子序列之间的平均变化距离MC;其中,si表示第i个子序列,即为步骤13经过线性分段,降维后的子序列。n表示每一组内的子序列的总数,即为数据统计的总年数;D为子序列之间的距离度量函数,本发明中子序列之间的距离度量函数采用动态时间弯曲DTW(动态时间序列弯曲距离,简称DTW)。
步骤153;判断标号i的值;如果i大于该组内子序列的总数则结束本组的处理;如果i不小于该组内子序列的总数则结束本组的处理;则进行步骤154。
步骤154:读取子序列si的信息。
步骤155:读取子序列si的邻近子序列。设置邻近子序列的个数k,一般取k为偶数。读取si-k/2,…,si-1,si+1,…,si+k/2作为邻近子序列。水文规律变化一般相对较缓,因此k取值可以大于3,但是小于子序列数量的一半,即n/2,取值太大距离值将被太多的邻近子序列平滑,不能体现出异常。
步骤156:根据公式计算子序列si相对于其近邻子序列的累积变化距离AC。其中,si表示第i个子序列。序列si的k个邻近子序列集合为<sN1,sN2,…,sNk>,sNk表示第k个近邻子序列;<w1,w2,…,wk>为权值向量,wk表示k个邻近子序列的权值,赋予每个邻近子序列不同的权值。一般越接近子序列si的邻近子序列赋予的权值越大。D为子序列之间的距离度量函数,本发明采用动态时间弯曲DTW度量子序列之间的距离。一般<w1,w2,…,wk>的取值可以为<1,2,…,k/2,k/2,…,2,1>,即距离si越近,权重取值越大。
步骤157:AC>MC。判断累积变化距离AC是否大于平均变化距离MC,如果大于,则si识别为异常子序列,直接进行步骤157;否则si为正常子序列,先将i的值加1后重复步骤153~步骤157。
步骤158:将异常子序列进行保存,重复步骤153~步骤157。
步骤16:将检测得到的异常子序列采用曲线方式进行图形展示。
步骤17:对检测得到的异常子序列进行评估,通过专家的人工经验,核查其是否为真正的异常子序列。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种水文时间序列异常模式检测方法,其特征在于:包括以下步骤:
步骤1:采集历年的水位数据,根据时间的顺序,以年为单位组成每年的水位时间序列;
步骤2:对每年水位时间序列进行分割,产生水位子序列;
步骤3:水位子序列进行线性分段,形成维度低的水位子序列;
步骤4:对步骤3中获得的水位子序列进行分组,将同时间段的子序列划分为一组;
步骤5:在同一组子序列中结合平均变化距离和积累变化距离进行异常子序列的检测。
2.根据权利要求1所述的水文时间序列异常模式检测方法,其特征在于:所述步骤2中采用滑动窗口机制对每年水位时间序列进行分割,产生水位子序列。
3.根据权利要求1所述的水文时间序列异常模式检测方法,其特征在于:所述步骤3中通过分析逐段聚集平均的方法对分割后的水位子序列进行线性分段。
4.根据权利要求1所述的水文时间序列异常模式检测方法,其特征在于:所述步骤5中对异常子序列检测的方法为,包括以下步骤:
步骤51:根据公式计算组内子序列之间的平均变化距离MC;其中,si表示第i个子序列,n表示子序列的总数,D为子序列之间的距离度量函数;
步骤52:确定si邻近子序列的个数k,根据公式计算子序列si与近邻子序列之间的累积变化距离AC;其中,si表示第i个子序列,sNk表示第k个近邻子序列,wk表示k个邻近子序列的权值,D为子序列之间的距离度量函数;
步骤53:判断AC与MC的大小,若AC>MC,则当前子序列si可能为异常子序列,否则视为正常子序列。
5.根据权利要求4所述的水文时间序列异常模式检测方法,其特征在于:所述子序列之间的距离度量函数采用动态时间序列弯曲距离函数。
6.根据权利要求1所述的水文时间序列异常模式检测方法,其特征在于:还包括步骤6:将检测得到的异常子序列采用曲线方式进行图形展示并进行评估。
7.根据权利要求4所述的水文时间序列异常模式检测方法,其特征在于:近邻子序列的总数k的取值大于3,且小于子序列数量的一半。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710092513.3A CN106951680A (zh) | 2017-02-21 | 2017-02-21 | 一种水文时间序列异常模式检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710092513.3A CN106951680A (zh) | 2017-02-21 | 2017-02-21 | 一种水文时间序列异常模式检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951680A true CN106951680A (zh) | 2017-07-14 |
Family
ID=59467589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710092513.3A Pending CN106951680A (zh) | 2017-02-21 | 2017-02-21 | 一种水文时间序列异常模式检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951680A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304353A (zh) * | 2018-01-10 | 2018-07-20 | 武汉大学 | 水文序列相依性变异程度分析方法 |
CN108920429A (zh) * | 2018-06-12 | 2018-11-30 | 河海大学 | 一种水位动态监测的异常数据分析方法 |
CN109542952A (zh) * | 2018-11-23 | 2019-03-29 | 中国民用航空上海航空器适航审定中心 | 一种时间序列异常点的检测方法 |
WO2020186432A1 (en) * | 2019-03-15 | 2020-09-24 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method of high dimensional data analysis in real-time |
CN112131274A (zh) * | 2020-09-22 | 2020-12-25 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
CN112445842A (zh) * | 2020-11-20 | 2021-03-05 | 北京思特奇信息技术股份有限公司 | 一种基于时间序列数据的异常值检测方法和系统 |
CN112948145A (zh) * | 2021-03-16 | 2021-06-11 | 河海大学 | 一种面向水文传感器流数据的异常检测方法 |
CN114565065A (zh) * | 2022-04-29 | 2022-05-31 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651093A (zh) * | 2012-03-31 | 2012-08-29 | 上海海洋大学 | 一种基于时间序列异常检测技术的海洋信息管理系统 |
CN102945320A (zh) * | 2012-10-29 | 2013-02-27 | 河海大学 | 一种时间序列数据异常检测方法与装置 |
CN105069093A (zh) * | 2015-08-05 | 2015-11-18 | 河海大学 | 一种基于嵌入式索引的水文时间序列相似性搜索方法 |
CN106127249A (zh) * | 2016-06-24 | 2016-11-16 | 深圳市颐通科技有限公司 | 一种单时间序列异常子序列检测方法 |
-
2017
- 2017-02-21 CN CN201710092513.3A patent/CN106951680A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651093A (zh) * | 2012-03-31 | 2012-08-29 | 上海海洋大学 | 一种基于时间序列异常检测技术的海洋信息管理系统 |
CN102945320A (zh) * | 2012-10-29 | 2013-02-27 | 河海大学 | 一种时间序列数据异常检测方法与装置 |
CN105069093A (zh) * | 2015-08-05 | 2015-11-18 | 河海大学 | 一种基于嵌入式索引的水文时间序列相似性搜索方法 |
CN106127249A (zh) * | 2016-06-24 | 2016-11-16 | 深圳市颐通科技有限公司 | 一种单时间序列异常子序列检测方法 |
Non-Patent Citations (2)
Title |
---|
宋若宁: "海量数据环境下的网络流量异常检测的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
林森: "时间序列异常检测的研究与应用", 《万方学位论文库》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304353A (zh) * | 2018-01-10 | 2018-07-20 | 武汉大学 | 水文序列相依性变异程度分析方法 |
CN108920429A (zh) * | 2018-06-12 | 2018-11-30 | 河海大学 | 一种水位动态监测的异常数据分析方法 |
CN108920429B (zh) * | 2018-06-12 | 2022-02-11 | 河海大学 | 一种水位动态监测的异常数据分析方法 |
CN109542952A (zh) * | 2018-11-23 | 2019-03-29 | 中国民用航空上海航空器适航审定中心 | 一种时间序列异常点的检测方法 |
US11494690B2 (en) | 2019-03-15 | 2022-11-08 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method of high dimensional data analysis in real-time |
WO2020186432A1 (en) * | 2019-03-15 | 2020-09-24 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method of high dimensional data analysis in real-time |
CN112131274A (zh) * | 2020-09-22 | 2020-12-25 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
WO2021189845A1 (zh) * | 2020-09-22 | 2021-09-30 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
CN112131274B (zh) * | 2020-09-22 | 2024-01-19 | 平安科技(深圳)有限公司 | 时间序列异常点的检测方法、装置、设备及可读存储介质 |
CN112445842A (zh) * | 2020-11-20 | 2021-03-05 | 北京思特奇信息技术股份有限公司 | 一种基于时间序列数据的异常值检测方法和系统 |
CN112445842B (zh) * | 2020-11-20 | 2024-09-06 | 北京思特奇信息技术股份有限公司 | 一种基于时间序列数据的异常值检测方法和系统 |
CN112948145A (zh) * | 2021-03-16 | 2021-06-11 | 河海大学 | 一种面向水文传感器流数据的异常检测方法 |
CN114565065B (zh) * | 2022-04-29 | 2022-08-12 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
CN114565065A (zh) * | 2022-04-29 | 2022-05-31 | 长江水利委员会水文局 | 一种水文序列数据异常值检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951680A (zh) | 一种水文时间序列异常模式检测方法 | |
CN108304668B (zh) | 一种结合水文过程数据和历史先验数据的洪水预测方法 | |
Wang et al. | Flood hazard risk assessment model based on random forest | |
Diamantopoulou et al. | Modelling total volume of dominant pine trees in reforestations via multivariate analysis and artificial neural network models | |
Zhang et al. | Predicting hydrological signatures in ungauged catchments using spatial interpolation, index model, and rainfall–runoff modelling | |
CN104484602B (zh) | 一种入侵检测方法、装置 | |
CN105139093B (zh) | 基于Boosting算法和支持向量机的洪水预报方法 | |
CN106650767A (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
CN102109619A (zh) | 一种基于人工智能的台风增水预测系统和方法 | |
CN108647425B (zh) | 基于粒子群优化的K-means径流丰枯年份预报方法 | |
CN110225055A (zh) | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 | |
Kadir et al. | Wheat yield prediction: Artificial neural network based approach | |
CN110532297A (zh) | 一种基于层次聚类的符号化水文时间序列异常模式检测方法 | |
Chang et al. | Assessing the ecological hydrology of natural flow conditions in Taiwan | |
Zhang et al. | Analysis of flash droughts in China using machine learning | |
Asghari et al. | Spatial rainfall prediction using optimal features selection approaches | |
Shabani et al. | Modeling daily pan evaporation in humid climates using gaussian process regression | |
Kocjančič et al. | Modelling of the river flowrate: the influence of the training set selection | |
Li et al. | Optimizing flood predictions by integrating LSTM and physical-based models with mixed historical and simulated data | |
CN107437112A (zh) | 一种基于改进多尺度核函数的混合rvm模型预测方法 | |
Dubey | K-Means based radial basis function neural networks for rainfall prediction | |
Velasco et al. | Performance analysis of multilayer perceptron neural network models in week-ahead rainfall forecasting | |
CN112926664B (zh) | 基于进化算法的特征选择与cart森林的短时强降水预报方法 | |
Singh | Study of various rainfall estimation prediction techniques using data mining | |
Chaudhari et al. | Study of various rainfall estimation & prediction techniques using data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170714 |