CN103995808B - 时间序列上事件检测方法和装置 - Google Patents
时间序列上事件检测方法和装置 Download PDFInfo
- Publication number
- CN103995808B CN103995808B CN201310051659.5A CN201310051659A CN103995808B CN 103995808 B CN103995808 B CN 103995808B CN 201310051659 A CN201310051659 A CN 201310051659A CN 103995808 B CN103995808 B CN 103995808B
- Authority
- CN
- China
- Prior art keywords
- length
- subsequence
- event
- represent
- normal distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种时间序列上事件检测方法和装置,涉及智能管道领域。通过将事件长度的搜索区间L分段,对于每一分段(p,q),计算sp、sq和s(p...q),如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除,将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除,直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件,整个事件检测过程中不需要先验知识,实现了事件窗口宽度的自动适配,可以避免由此导致的错认或丢失事件,剪除一些分段,缩减事件搜索区间,降低了检测算法的复杂度。
Description
技术领域
本发明涉及智能管道领域,特别涉及一种时间序列上事件检测方法和装置。
背景技术
时间序列是对某一对象的某一属性按统一的时间间隔不断采样形成的序列。例如:某网络端口每天正午的瞬时流量构成时间序列。
非正式的说,时间序列上的事件检测是指检测出时间序列上的“波峰”,“波峰”称为“事件”,“波峰”说明在这一时间段的序列值明显高于正常,通常是某些特殊事件导致的。例如:网络流量序列上的事件可能源自洪泛攻击。
为了在检测事件时排除噪音(如孤立点)的影响,目前主要采用分段求和或定宽的窗口平滑技术。这两种技术有以下问题,可能造成错认或丢失事件:1)分段或窗口的长度设定需要先验知识;2)阈值的设定需要先验知识;3)不同长度的事件间缺乏统一的比较标准;4)滑动窗口法会模糊事件的边界。
发明内容
本发明实施例所要解决的一个技术问题是:解决传统事件检测技术需要先验知识,以及由于先验知识偏差所造成的错认事件或丢失事件的问题。
本发明实施例所要解决的另一个技术问题是:解决不同长度的事件间缺乏统一的比较标准的问题。
本发明实施例的一个方面提供了一种时间序列上事件检测方法,包括:将事件长度的搜索区间L分段,其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值;对于分段得到的每一段(p,q),计算sp、sq和s(p...q),其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度;如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除;将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除;直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
所述对于分段得到的每一段(p,q),计算sp包括:分别计算长度为p的所有子序列的和,长度为p的子序列的和符合正态分布;选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
所述对于分段得到的每一段(p,q),计算sq包括:分别计算长度为q的所有子序列的和,长度为q的子序列的和符合正态分布;选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
所述对于分段得到的每一段(p,q),计算s(p...q)包括:根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
所述记录每一个点对应的重要事件及其重要程度包括:对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
时间序列上事件检测方法还包括:将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
本发明实施例的另一个方面提供了一种时间序列上事件检测装置,包括:分段单元,用于将事件长度的搜索区间L分段,其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值;重要性确定单元,用于对于分段得到的每一段(p,q),计算sp、sq和s(p...q),其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度;剪除单元,用于如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除;递归单元,用于将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除;检测单元,用于直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
所述重要性确定单元包括用于计算sp的第一确定子单元,用于分别计算长度为p的所有子序列的和,长度为p的子序列的和符合正态分布;选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
所述重要性确定单元包括用于计算sq的第二确定子单元,用于分别计算长度为q的所有子序列的和,长度为q的子序列的和符合正态分布;选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
所述重要性确定单元包括用于计算s(p...q)的第三确定子单元,用于根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
所述检测单元,具体用于对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
所述检测单元还用于:将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
本发明通过将事件长度的搜索区间L分段,对于分段得到的每一段(p,q),计算sp、sq和s(p...q),如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除,将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除,直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件,整个事件检测过程中不需要先验知识,实现了事件窗口宽度的自动适配,可以避免由此导致的错认事件或丢失事件;并且剪除一些不可能包含全局重要事件的段,缩减事件长度的搜索区间,在提高精确度的同时降低了检测算法的复杂度,在最好情况下能将检出最重要事件的算法复杂度从常数级降到对数级。另外,用偏离均值的程度做不同长度事件之间统一的重要性评价标准,从而统一了事件重要性的量化标准。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明时间序列上事件检测方法一个实施例的流程示意图。
图2为本发明时间序列上事件检测方法一个实例的示意图。
图3为本发明时间序列上事件检测装置一个实施例的结构示意图。
图4为本发明时间序列上事件检测装置另一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
下面对本发明所涉及的基本概念、所依据的基本原理进行介绍。
时间序列是对某一对象的某一属性按统一的时间间隔不断采样形成的序列。例如:某网络端口每天正午的瞬时流量构成时间序列。
时间序列上的事件检测是指检测出时间序列上的“波峰”,“波峰”称为“事件”,“波峰”说明在这一时间段的序列值明显高于正常,通常是某些特殊事件导致的。例如:网络流量序列上的事件可能源自洪泛攻击。
假设时间序列为(d1,d2,d3,...,dn),这个序列中从m开始长度为k的子序列的和称为Dm,k。对于给定的长度k,长度为k的子序列的和符合正态分布,该结论可以根据独立假设和中心极限定理得到,下面详细说明。
根据中心极限定理(Lindeberg定理),设有一个独立随机变量序列,每个变量的数学期望和方差有限,则这个序列的和的极限是一个正态分布。在实际应用中,数学期望和方差有限这件事情显然成立(无限只有数学上的意义),因此,长度为k的子序列,上面每个采样点都是独立的,就是一个独立随机变量序列,如果k足够大,它的和就是正态分布。因此,由独立假设和中心极限定理可以得出结论:对于给定的长度k,长度为k的子序列的和Dk符合正态分布。
通过参数估计可以获得该正态分布的具体参数,具体地,选择若干个长度为k的子序列作为采样,采样的均值是该正态分布的均值μ,采样的标准差是该正态分布的标准差σ。
对于特定的D?,k,可以算出其偏离均值的程度为s'k=(D?,k-μ)/σ。与均值偏离越大的子序列,则作为事件越重要。偏离均值的程度可以作为不同长度事件之间统一的重要性评价标准。
限定时间段长度为k,则重要事件显然是D?,k中最大的那个。为了检测出全局重要事件,可以遍历所有k,记录每个k对应的重要事件及其重要程度s,所有的中最重要的那个即为全局重要事件Ds。这种方法需要遍历所有的时间段长度,效率显然不够高,由此,本发明提出一种能够快速地找出全局重要事件Ds的方法,下面详细说明。
图1示出本发明时间序列上事件检测方法一个实施例的流程示意图。如图1所示,该实施例的事件检测方法包括:
步骤101,将事件长度的搜索区间L分段。
其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值。
分段的数量可以根据需要设定,这里不做限制。另外,根据搜索区间的范围和分段的数量,可以将搜索区间平均分为若干段,如果不能平均分段,可以将搜索区间分成长度大致相等的若干段即可。
步骤102,对于分段得到的每一段(p,q),计算sp、sq和s(p...q)。
其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度。下面分别说明sp、sq和s(p...q)的计算方法。
对于分段(p,q),sp计算方法包括:
分别计算长度为p的所有子序列的和,根据独立假设和中心极限定理,长度为p的子序列的和符合正态分布;选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值μp,将采样的标准差作为正态分布的标准差σp;根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
对于分段(p,q),sq计算方法包括:
分别计算长度为q的所有子序列的和,根据独立假设和中心极限定理,长度为q的子序列的和符合正态分布;选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值μq,将采样的标准差作为正态分布的标准差σq;根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
对于分段(p,q),s(p...q)计算方法包括:
根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
步骤103,如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除。
步骤104,递归地将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除,即继续分段之后,执行步骤102和步骤103。
步骤105,直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
其中,搜索区间小到符合预设值,例如可以是搜索区间包括几个或几十个点,则可以认为搜索区间已经足够小,无须再继续分段。该预设值可以自主设定。
其中,记录每一个点对应的重要事件及其重要程度包括:
对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
如果全局重要事件不止一个,则还可以执行步骤106,检出其他全局重要事件。
步骤106,将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
下面结合一个具体实例来说明本发明的事件检测方法。图2示出本发明时间序列上事件检测方法一个实例的示意图。
如图2所示,事件长度的搜索区间L=(p,…,q5),将搜索区间L分为5段,分别为(p,…,q1)、(q1,…,q2)、(q2,…,q3)、(q3,…,q4)、(q4,…,q5)。对于这5段分别计算sp、sq和s(p...q),以(q3,…,q4)为例,计算sq3、sq4和s(q3...q4)。在图2中,每一分段都对应一个重要程度“箭头”,该“箭头”的下限表示分段两端点的重要事件的重要程度中的较大值,该“箭头”的下限表示s(p...q),仍以(q3,…,q4)为例,“箭头”的下限表示sq3和sq4中的较大值,“箭头”的下限表示s(q3...q4)。在图2中,虚线表示这5段中“箭头”下限最大的那个,即(q2,…,q3)段重要事件的下限。如图2所示,(p,…,q1)、(q1,…,q2)和(q4,…,q5)这3个分段的s(p...q)小于(q2,…,q3)的sq3或sq3(即“箭头”下限),因此,将这3段剪除,仅在剩余的(q2,…,q3)和(q3,…,q4)这两段进行全局重要事件的检测。如果剩余的搜索区间已经足够小,则可以遍历(q2,…,q4)之间的点,检出全局重要事件,如果剩余的搜索区间不足够小,则可以继续分段,并进行剪除的操作,这里不再赘述。
在上述实施例中,通过将事件长度的搜索区间L分段,对于分段得到的每一段(p,q),计算sp、sq和s(p...q),如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除,将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除,直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件,整个事件检测过程中不需要先验知识,实现了事件窗口宽度的自动适配,可以避免由此导致的错认事件或丢失事件;并且剪除一些不可能包含全局重要事件的段,缩减事件长度的搜索区间,在提高精确度的同时降低了检测算法的复杂度,在最好情况下能将检出最重要事件的算法复杂度从常数级降到对数级。另外,用偏离均值的程度做不同长度事件之间统一的重要性评价标准,从而统一了事件重要性的量化标准。
图3示出本发明时间序列上事件检测装置一个实施例的结构示意图。
如图3所示,该事件检测装置包括:
分段单元301,用于将事件长度的搜索区间L分段,其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值;
重要性确定单元302,用于对于分段得到的每一段(p,q),计算sp、sq和s(p...q),其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度;
剪除单元303,用于如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除;
递归单元304,用于将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除;
检测单元305,用于直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
图4示出本发明时间序列上事件检测装置另一个实施例的结构示意图。
如图4所示,重要性确定单元302包括用于计算sp的第一确定子单元3021,用于分别计算长度为p的所有子序列的和,长度为p的子序列的和符合正态分布;选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
如图4所示,重要性确定单元302包括用于计算sq的第二确定子单元3022,用于分别计算长度为q的所有子序列的和,长度为q的子序列的和符合正态分布;选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
如图4所示,重要性确定单元302包括用于计算s(p...q)的第三确定子单元3023,用于根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
检测单元305,具体用于对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
检测单元305还用于:将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
在上述实施例中,通过将事件长度的搜索区间L分段,对于分段得到的每一段(p,q),计算sp、sq和s(p...q),如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除,将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除,直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件,整个事件检测过程中不需要先验知识,实现了事件窗口宽度的自动适配,可以避免由此导致的错认事件或丢失事件;并且剪除一些不可能包含全局重要事件的段,缩减事件长度的搜索区间,在提高精确度的同时降低了检测算法的复杂度,在最好情况下能将检出最重要事件的算法复杂度从常数级降到对数级。另外,用偏离均值的程度做不同长度事件之间统一的重要性评价标准,从而统一了事件重要性的量化标准。
本发明适用于所有时间序列上的事件检测应用,如网络流量实时监测,网络攻击告警等,也可应用于时间序列历史数据的分析,如IPTV传输服务质量分析,网络舆情分析等。以网络舆情分析为例,通过统计某个关键词每小时/每天被搜索的次数,形成一个时间序列,判断这个序列上有没有足够重要的事件,由此判断这个关键词描述的问题是否构成一个热点。设有两个已知是热点的关键词,例如“营养午餐”和“经济危机”,前者在高峰时期每日被搜索百万次,但只持续了三个月,而后者虽然峰值时也只有十万次级别的搜索,但持续了数年,本发明可以判断出两者哪个在统计意义上更加重要,并能量化两者的重要性差异。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种用于智能管道的时间序列上事件检测方法,包括:
将事件长度的搜索区间L分段,其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值;
对于分段得到的每一段(p,q),计算sp、sq和s(p...q),其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度;
如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除;
将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除;
直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
2.根据权利要求1所述的方法,其特征在于,所述对于分段得到的每一段(p,q),计算sp包括:
分别计算长度为p的所有子序列的和,长度为p的子序列的和符合正态分布;
选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
3.根据权利要求1所述的方法,其特征在于,所述对于分段得到的每一段(p,q),计算sq包括:
分别计算长度为q的所有子序列的和,长度为q的子序列的和符合正态分布;
选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
4.根据权利要求1所述的方法,其特征在于,所述对于分段得到的每一段(p,q),计算s(p...q)包括:
根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
5.根据权利要求1所述的方法,其特征在于,所述记录每一个点对应的重要事件及其重要程度包括:
对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件Dk s;
长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
6.根据权利要求1所述的方法,其特征在于,还包括:
将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
7.一种用于智能管道的时间序列上事件检测装置,包括:
分段单元,用于将事件长度的搜索区间L分段,其中,L=(P,P+1,P+2,…,Q),P表示事件长度的最小值,Q表示事件长度的最大值;
重要性确定单元,用于对于分段得到的每一段(p,q),计算sp、sq和s(p...q),其中,sp表示长度为p的子序列中和最大的子序列的重要程度,sq表示长度为q的子序列中和最大的子序列的重要程度,s(p...q)表示分段(p,q)对应的最大的重要程度;
剪除单元,用于如果其中一段的s(p...q)小于其他任一段的sp或sq,将该段剪除;
递归单元,用于将剩余的每个段再继续分段,将继续分段得到的每一子段采用上述分段的方法继续进行剪除;
检测单元,用于直到事件长度的剩余搜索区间小到符合预设值,停止分段和剪除的操作,遍历事件长度的剩余搜索区间上的点,记录每一个点对应的重要事件及其重要程度,所有重要事件中重要程度最大的事件作为全局重要事件Ds。
8.根据权利要求7所述的装置,其特征在于,所述重要性确定单元包括用于计算sp的第一确定子单元,用于
分别计算长度为p的所有子序列的和,长度为p的子序列的和符合正态分布;
选择部分长度为p的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sp,其中,表示长度为p的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,sp表示长度为p的子序列中和最大的子序列的重要程度。
9.根据权利要求7所述的装置,其特征在于,所述重要性确定单元包括用于计算sq的第二确定子单元,用于
分别计算长度为q的所有子序列的和,长度为q的子序列的和符合正态分布;
选择部分长度为q的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sq,其中,表示长度为q的子序列中和的最大值,μq表示长度为q的子序列的正态分布的均值,σq表示长度为q的子序列的正态分布的标准差,sq表示长度为q的子序列中和最大的子序列的重要程度。
10.根据权利要求7所述的装置,其特征在于,所述重要性确定单元包括用于计算s(p...q)的第三确定子单元,用于
根据公式计算s(p...q),其中,表示长度为q的子序列中和的最大值,μp表示长度为p的子序列的正态分布的均值,σp表示长度为p的子序列的正态分布的标准差,s(p...q)表示分段(p,q)对应的最大的重要程度。
11.根据权利要求7所述的装置,其特征在于,所述检测单元,具体用于
对于事件长度为k的点,分别计算长度为k的所有子序列的和,将长度为k的所有子序列的和的最大值作为重要事件
长度为k的子序列的和符合正态分布,选择部分长度为k的子序列作为采样,计算采样的均值和标准差,将采样的均值作为正态分布的均值,将采样的标准差作为正态分布的标准差;
根据公式计算sk,其中,表示长度为k的子序列中和的最大值,μk表示长度为k的子序列的正态分布的均值,σk表示长度为k的子序列的正态分布的标准差,sk表示长度为k的子序列中重要事件的重要程度。
12.根据权利要求7所述的装置,其特征在于,所述检测单元还用于:
将全局重要事件Ds对应的点从原始时间序列中剪除,在剩余的时间序列上采用全局重要事件Ds的检测方法检出第二个全局重要事件,直到所有的全局重要事件都被检出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310051659.5A CN103995808B (zh) | 2013-02-17 | 2013-02-17 | 时间序列上事件检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310051659.5A CN103995808B (zh) | 2013-02-17 | 2013-02-17 | 时间序列上事件检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103995808A CN103995808A (zh) | 2014-08-20 |
CN103995808B true CN103995808B (zh) | 2018-02-02 |
Family
ID=51309977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310051659.5A Active CN103995808B (zh) | 2013-02-17 | 2013-02-17 | 时间序列上事件检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103995808B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033936A (zh) * | 2010-12-20 | 2011-04-27 | 天津大学 | 一种用于时间序列相似性比较的方法 |
CN201974940U (zh) * | 2011-03-11 | 2011-09-14 | 上海千年工程建设咨询有限公司 | 短时交通状态预测装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2354330B1 (es) * | 2009-04-23 | 2012-01-30 | Universitat Pompeu Fabra | Método para calcular medidas de similitud entre señales temporales. |
-
2013
- 2013-02-17 CN CN201310051659.5A patent/CN103995808B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033936A (zh) * | 2010-12-20 | 2011-04-27 | 天津大学 | 一种用于时间序列相似性比较的方法 |
CN201974940U (zh) * | 2011-03-11 | 2011-09-14 | 上海千年工程建设咨询有限公司 | 短时交通状态预测装置 |
Non-Patent Citations (1)
Title |
---|
基于时间序列模式表示的异常检测算法;詹艳艳 等;《计算机应用研究》;20071130;第24卷(第11期);第2-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN103995808A (zh) | 2014-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038040B (zh) | 计算机集群性能指标检测方法、电子设备及存储介质 | |
CN104899849B (zh) | 一种多目标交互式图像分割方法和装置 | |
US20060282436A1 (en) | Systems and methods for estimating functional relationships in a database | |
Cox et al. | Floods: some probabilistic and statistical approaches | |
Streubel et al. | Identification of electrical appliances via analysis of power consumption | |
Naess et al. | Combination of the peaks-over-threshold and bootstrapping methods for extreme value prediction | |
CN108462708A (zh) | 一种基于hdp-hmm的行为序列的建模和检测方法 | |
Gozali et al. | Hidden Markov Model for event photo stream segmentation | |
Martínez et al. | Predictability of the monthly North Atlantic Oscillation index based on fractal analyses and dynamic system theory | |
CN103995808B (zh) | 时间序列上事件检测方法和装置 | |
Mashayekhi et al. | Weighted estimation of information diffusion probabilities for independent cascade model | |
Rivest et al. | Capture-recapture methods for estimating the size of a population: dealing with variable capture probabilities | |
Kołowrocki et al. | Identification methods and procedures of climate-weather change process including extreme weather hazards | |
Kadoda et al. | On configuring a case-based reasoning software project prediction system | |
CN115545240A (zh) | 一种低压配电网台区异常线损诊断方法、系统、设备及介质 | |
CN109376799A (zh) | 一种基于多样性shapelet的时间序列早期分类方法及设备 | |
Draayer et al. | Reevaluating the change point detection problem with segment-based Bayesian online detection | |
Mazas et al. | Questioning MLE for the estimation of environmental extreme distributions | |
Krämer et al. | Dimension-scalable recurrence threshold estimation | |
Sakuramoto | A new concept of the stock-recruitment relationship for the Japanese sardine, Sardinops Melanostictus | |
Szücs et al. | Five Ws, one H and many tweets | |
CN112308099A (zh) | 样本特征重要性的确定方法、分类模型的训练方法及装置 | |
Burlando et al. | Modelling hydrological data with and without long memory | |
Wang et al. | A quick algorithm of counting flow accumulation matrix for deriving drainage networks from a DEM | |
Höppner | Discovery of Core Episodes from Sequences: Using Generalization for Defragmentation of Rule Sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |