CN105808923A - 一种数据序列的异常检测方法和装置 - Google Patents
一种数据序列的异常检测方法和装置 Download PDFInfo
- Publication number
- CN105808923A CN105808923A CN201610113148.5A CN201610113148A CN105808923A CN 105808923 A CN105808923 A CN 105808923A CN 201610113148 A CN201610113148 A CN 201610113148A CN 105808923 A CN105808923 A CN 105808923A
- Authority
- CN
- China
- Prior art keywords
- data
- subsequence
- state
- probability
- graph model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种数据序列的异常检测方法及装置,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,该方法包括:针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;若所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据,则所述数据所属的数据子序列存在异常。该异常检测方法能够在缺乏先验知识的情况下检测出数据流中的多种异常情况,能够细粒度的对多个维度的数据序列的多种异常进行实时检测。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据序列的异常检测方法和装置。
背景技术
当今社会,数据量正在以爆炸方式迅猛增长,例如云计算、工业4.0、物联网、车联网、移动互联网等的出现,催生了大数据时代的产生,并且数据更加集中,而这一趋势也将持续下去。
这些数据主要呈现大批量、多源性、连续采样、价值密度低、动态性强等特点,而数据的产生、传输、处理和存储等是一个复杂的过程,这其中有很多环节,任何一个环节都可能因各种因素而导致数据的异常。这些异常往往具有复杂性,同一个数据流常常会产生多种不同类型的异常,因此需要对数据进行异常检测,数据的异常检测在金融风险分析、通信网监测、网络流量管理、趋势分析、Web日志分析、网络入侵检测、传感器网络管理等领域具有广泛的应用。例如,为了调节电信网络的性能,需要对电信网中的数据流进行监测,其检测异常的准确性对电信网络的正常运行是至关重要的。
在对数据进行异常检测的过程中,由于先验知识缺乏,无法预知异常类型,且异常的类型多,常规的异常检测方法往往只关注某一类异常,无法一次对数据的多类异常进行检测。
发明内容
本发明实施例提供一种数据序列的异常检测方法及装置,用以解决现有异常检测方法无法一次对数据的多类异常进行检测的问题。
本发明实施例提供一种数据序列的异常检测方法,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,包括:
针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;
根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;
若所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据,则所述数据所属的数据子序列存在异常。
可选地,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率之后还包括:
根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
可选地,所述针对每个数据子序列,生成概率状态图模型包括:
对每个所述数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为所述概率状态图模型的一个节点;
连接所述概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
可选地,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率包括:
根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述数据子序列中Sj作为Si的后继状态的数据出现的数量,且n为大于1的正整数。
可选地,所述根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分包括:
根据公式计算所述数据子序列的异常评分score(Gt),其中,E*表示所述概率状态图模型中有向边的数量,S*表示所述概率状态图模型中数据的状态集合,l为第三预设阈值,反映所述异常评分的敏感度,λ为实数。
可选地,所述数据子序列中的数据包括单维数据和多维数据。
本发明实施例还提供一种数据序列的异常检测装置,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,包括:
生成模块,用于针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;
计算模块,用于根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;
判定模块,用于当判断出所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则所述数据所属的数据子序列存在异常。
可选地,所述计算模块还用于根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
可选地,所述生成模块包括:
划分单元,用于对每个所述数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为所述概率状态图模型的一个节点;
处理单元,用于连接所述概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
可选地,所述计算模块具体用于:根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述数据子序列中Sj作为Si的后继状态的数据出现的数量,且n为大于1的正整数。
本发明实施例的数据序列的异常检测方法及装置,通过对数据子序列生成概率状态图模型,并根据该概率状态图模型计算数据子序列中各数据的状态转换概率,当数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则该数据所述的数据子序列存在异常。该异常检测方法能够在缺乏先验知识的情况下检测出数据流中的多种异常情况,能够细粒度的对多个维度的数据序列的多种异常进行实时检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为上下文异常示例图;
图2为全局离群点示例图;
图3为关联异常示例图;
图4为数据序列模式异常示例图;
图5为本发明的数据序列的异常检测方法实施例一的流程图;
图6为一个多维PSG模型示意图;
图7为一个时态子图TS-PSG示例图;
图8为本发明的数据序列的异常检测方法实施例二的流程图;
图9是含有异常的两个时序子图的示例图;
图10为异常检测结果示例图;
图11为本发明的数据序列的异常检测装置实施例一的结构示意图;
图12为本发明的数据序列的异常检测装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,异常点是不同于数据集中的其它数据,这些数据并非随机偏差,而是产生于完全不同的机制。离群点可能是由于度量或执行错误产生的,也有可能是由于固有数据变异产生的或其它原因产生。数据序列中的异常数据被表示为一组变化特征偏离常规的数据子序列。数据的取值被离散化成不同的状态,数据序列中前后数据的变化构成了状态的跳转。通过对历史数据的分析,可以发现,尽管数据的变化情况呈现局部的不确定性,但总体而言不同状态之间的转换关系呈现一定的规律性。初始训练数据越多,这种规律性体现的越明显。
数据序列中的异常类型大致有如下几种:
上下文异常:当前的数据点从整体数据集而言属于正常数据,但是对于其所处的上下文环境,属于异常数据。这种异常可以看成是局部离群点。图1为上下文异常示例图,如1所示,其中,t2点为异常点。
全局离群点:全局离群点在数据序列局部而言也属于上下文异常,但是其异常点对于全局数据而言也是非正常数据。图2为全局离群点示例图,如图2所示,其中,异常发生在横坐标的11/23处。
关联异常:具有一定关联关系的不同数据流之间,或者不同的数据维度之间的数据不匹配情况,即数据之间背离应有的关联关系而产生的异常。图3为关联异常示例图,如图3所示,图中上面的曲线代表速度,下面的曲线代表转弯角度,图3中异常发生在横坐标的21和25处,表示快速转弯,可以认为是一种异常。
数据序列模式异常:图4为数据序列模式异常示例图,如图4所示,其中,图4中1000-1500的中间段出现异常。
这几类异常都可以归为数据状态变换的异常情况。本发明的数据序列的异常检测方法采用一个概率状态图模型(probabilisticstatesgraphicalmodel,简称PSG)来表示数据流的数据特征,把数据的取值看成状态,在PSG中表示成节点。把数据流的变化看成状态之间的跳转,在PSG中表示成边。通过对历史数据集的统计分析,能够得到数据状态之间的跳转概率,即边的权重。通常,异常的数据总会出现在状态转换概率比较低的情况下。因此通过分析数据状态之间的转换或者关联概率,就可以检测出异常的数据。
图5为本发明的数据序列的异常检测方法实施例一的流程图,如图5所示,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,该方法包括:
步骤101:针对每个数据子序列,生成概率状态图模型。
其中,概率状态图模型中包括至少一个节点和至少一条有向边,一个节点表示数据子序列中一个数据的状态,有向边表示数据子序列中有向边连接的数据之间的跳转关系。
具体的,待检测的数据序列可以划分为多个数据子序列,每个数据子序列中包含至少一个数据,不同数据子序列中数据的个数可以自定义,可以设置为相同的个数也可以设置为不同个数。针对每个数据子序列,生成对应的概率状态图模型PSG,该概率状态图模型中包括节点和边,每一个数据状态作为概率状态图模型中的节点,数据之间的跳转关系作为边。
例如,定义一个带权有向图G=<S*,E*>,,S*是所有节点的集合,即状态集。是边的集合,即状态之间的跳转关系。数据流的不断输入,对应着状态图中状态的不断切换。而异常则发生在极小可能或不可能的状态切换中。因此,为了检测数据流中的几种常见异常,根据数据状态的转换概率来判断当前的局部数据序列是否为异常数据序列,用边的权重来代表状态的转换的可能性。
需要说明的是,该数据序列中的数据还可以是多维数据,多维数据的各个维度都有可能发生异常,除此之外,多个维度之间会存在相关维度,这些相关维度之间还会存在关联异常。以汽车行驶数据为例,发动机转速与速度是相关数据,当发动机转速较高,而速度较低时,这两者之间可以认为是存在关联异常,因为发动机转速与速度基本是相关且匹配的。发动机转速高的时候,速度一般也会较高。将这一类异常成为多维关联异常。
对于多维度的异常检测,利用单维数据的方法对不同维度的数据分别进行处理生成多重的PSG。仍以汽车数据为例。假设只有速度和转速,那么最终得到的PSG会包含两种节点,一种是速度数据的状态节点,另一种是转速数据的状态节点。不同类型的节点之间会存在关联,同种数据的状态节点之间也会存在关联。图6为一个多维PSG模型示意图,如图6所示。图6中Si j中的上标表示状态的类别,比如a表示汽车速度,b表示发动机转速;下标则表示该状态的一个编号。双向箭头表示不同类型数据之间的关联关系,单向箭头表示同种数据状态之间的时序(上下文)关联关系。
步骤102:根据概率状态图模型,计算数据子序列中各数据的状态转换概率。
具体的,根据上述概率状态图模型,或数据子序列中每个数据的状态转换概率,即在概率状态图模型中,计算从当前节点出发到和当前节点有连接关系的节点之间的状态转换概率,直到概率状态图模型中所有的节点计算完,在有向边上标示出该概率。
步骤103:若数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据,则数据所属的数据子序列存在异常。
具体的,如果在该数据子序列中的各个数据中,存在状态转换概率小于第一预设阈值的数据,那么该数据所属的数据子序列存在异常,从而可以判断当前数据序列中存在异常,且可以根据数据子序列判断出异常的位置。其中,第一预设阈值为用户根据历史数据的统计而定义的阈值。
需要说明的是,数据波动一般呈现一定的规律性,当数据的变化符合这种规律的时候,即数据状态之间的转换概率较大,认为是正常的,当违背这种规律的时候,即数据之间的状态转换概率较小,认为是异常的。所以可以根据这种状态转换的概率来判断数据序列的异常情况。一个简单的例子,以汽车行驶速度为例,当前速度在20KM/H时,下一时刻,比如三秒之后,速度忽然变到80KM/H,正常情况下这种变化的可能性是比较小的,所以可以认为这是一种异常的变化。
为了进行实时的检测,将实时更新的数据序列分段,并将每一段映射成一个时序的状态图子图,然后根据这个子图的结构来检测异常。在具体实现上,在新数据到达时,用一个异常检测窗口来捕获最新数据,将最新到达的一段子序列映射成PSG的一个时态子图(tensesub-PSG,简称TS-PSG),在这个子图中,同一种状态可以重复出现。图7为一个时态子图TS-PSG示例图,如图7所示,图7中中的上标表示状态的类别,下标则表示该状态的一个编号。其中,异常检测窗口是指数据流的最末端,或者最新的w个数据点组成的子序列。异常检测窗口是数据流异常检测的基本单元。在本实施中采用3≤w≤5来进行细粒度的检测。
本实施例的数据序列的异常检测方法,通过对数据子序列生成概率状态图模型,并根据该概率状态图模型计算数据子序列中各数据的状态转换概率,当数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则该数据所述的数据子序列存在异常。该异常检测方法能够在缺乏先验知识的情况下检测出数据流中的多种异常情况,能够细粒度的对多个维度的数据序列的多种异常进行实时检测。
进一步地,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率之后还包括:
根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
具体的,在计算出数据子序列中各数据的状态转换概率后,还可以进一步计算各数据子序列的异常评分,当该异常评分大于第二预设阈值时,则该数据子序列存在异常,进而可以判断出数据序列存在异常。其中,异常评分是根据自定义的统计函数得出,第二预设阈值是一个用户定义的异常阈值。
图8为本发明的数据序列的异常检测方法实施例二的流程图,如图8所示,在实施例一的基础上,步骤101包括:
步骤1011:对每个数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为概率状态图模型的一个节点。
具体的,对于单维度数据,将数据流中的数据正常取值范围进行离散化(即划分),离散成n个状态S={S1,S2…Sn}。为了保留数据本身的分布特征,采取细粒度、均分的方法对数据进行离散化。每一个数据状态作为状态转换图中节点。对于多维数据,将不同维度的数据分别进行离散化并用状态进行表示,最终得到一个多重的PSG。
步骤1012:连接概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
将数据之间的跳转关系作为边,对应到概率状态图模型中表示为从一个节点到另一个节点的连线,且为带箭头的连线。并且记录下来从当前节点到其他节点的跳转次数,继而可以计算出当前节点到其他节点的转换概率。
本实施例的异常检测方法,通过细粒度、均分的方法对数据进行离散化,结合数据之间的跳转关系,给出概率状态图模型,从而可以实现细粒度的对多个维度的数据序列的多种异常进行实时检测。
进一步地,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率包括:
根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述数据子序列中Sj作为Si的后继状态的数据出现的数量,且n为大于1的正整数。
具体的,w(i,j)=P(Si,Sj),表示当前状态为Si时,下一个状态是Sj的统计概率。令A(Si)表示数据中数据取值属于状态Si的数量,A(Si,Sj)表示在数据子序列中Sj作为Si的后继状态出现的数量。则有P(Si,Sj)=A(Si,Sj)/A(Si),且
进一步地,所述根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分包括:
根据公式计算所述数据子序列的异常评分score(Gt),其中,E*表示所述概率状态图模型中有向边的数量,S*表示所述概率状态图模型中数据的状态集合,l为第三预设阈值,反映所述异常评分的敏感度,λ为实数λ为实数。
具体的,用score(Gt)来表示一个数据子序列的异常情况,即该子序列的异常评分,当score(Gt)>l时,认为这段数据子序列存在异常。其中l是一个用户定义的异常阈值。
下面对本发明的数据序列的异常检测方法的计算性能和检测效果进行分析:
一、计算性能方面:模型训练的过程中,对于单维状态转换图的构建时间复杂度较低,只需对数据进行一遍处理即可得到m个状态转换矩阵。关联维度的分析涉及到相关系数计算因而复杂度稍高。而模型训练完成后,使用关联矩阵和状态转换矩阵对概率图进行表示,在异常的分析过程中,只需要对数据进行离散化和矩阵查询,其对计算数据集整体而言计算复杂度为O(n),复杂度低,能满足实时计算的需求。另外,本发明对多个维度以及相关维度进行单独分析,使得方法本身具有较好的并行性,可应用于分布式计算环境以进一步提升计算速度。
二、检测效果方面:以车联网为实验背景。用部分历史数据为例进行概率图模型的建模训练,并利用另外一部分数据进行测试,结果显示该方法能够精确的识别出数据流中的离群点和异常模式。其检测精度和检测速度上均有明显提升。图9是含有异常的两个时序子图的示例图,其中图9中左边的概率状态图模型含有上下文异常,即同一类数据状态在不同时刻之间的时序关系上存在异常,右边的概率状态图模型表示多维间的关联异常,即同一时刻的数据内,不同维度之间存在不匹配的情况。其中,二者可能会共现。而对于数据流中的概念漂移问题,通过实时更新统计值并间接求概率的方式使得模型具有较好的适应能力。图10为异常检测结果示例图,如图10所示,图中方框标注的部分为异常部分。
本发明的数据序列的异常检测方法针对多维数据,在数据离散化以及状态表示的基础上,分析相关维度之间的数据贡献关系构建概率图模型,针对单维数据本身构建状态转换概率图模型,利用概率分析方法进行数据的异常检测。该方法具有如下优点:
1.针对流式数据的异常检测,本发明提出的方法能够有效解决高维数据稀疏性导致的异常检测方法效率低、计算复杂性高的问题。针对数据流的实时检测,将多维数据分解成多个单维数据以及相关维度,并分别用相互独立的、较小的概率图进行表示,提升了检测的并行化并降低了算法的复杂性。
2.对于不同类型的应用场景,数据的波动性可能会有不同,而异常检测方法阈值的设定都应结合数据本身的特点。本方法充分利用数据本身的特征,克服了传统方法对于先验知识的依赖问题以及阈值设定问题。方法本身只需要依据常规概率统计中的检验标准来设定阈值。
3.本方法所采用的概率图模型中的概率值采用绝对数值间接表示、使用时计算,而数值本身实时更新,解决了异常检测中数据分布变更的概念漂移导致的检测方法随时间失效的问题。
4.细粒度、多类型检测,通过对异常点上下文的分析,能够给出异常的类型,多维分解分析也有助于在异常发生时给出更加具体的异常信息。
因此,本发明提出了一种简便、有效的数据序列的异常检测方法,具有较好的多维扩展性,能够实时检测出数据流中的多种异常,模型具有良好的自适应性。
图11为本发明的数据序列的异常检测装置实施例一的结构示意图,如图11所示,该装置包括:
生成模块11,用于针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;
计算模块12,用于根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;
判定模块13,用于当判断出所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则所述数据所属的数据子序列存在异常。
本实施例的数据序列的异常检测装置,通过对数据子序列生成概率状态图模型,并根据该概率状态图模型计算数据子序列中各数据的状态转换概率,当数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则该数据所述的数据子序列存在异常。该异常检测装置能够在缺乏先验知识的情况下检测出数据流中的多种异常情况,能够细粒度的对多个维度的数据序列的多种异常进行实时检测。
进一步地,所述计算模块12还用于根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
图12为本发明的数据序列的异常检测装置实施例二的结构示意图,如图12所示,在上述实施例的基础上,所述生成模块11包括:
划分单元111,用于对每个所述数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为所述概率状态图模型的一个节点;
处理单元112,用于连接所述概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
进一步地,所述计算模块12具体用于:根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述大于1的正整数。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种数据序列的异常检测方法,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,其特征在于,包括:
针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;
根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;
若所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据,则所述数据所属的数据子序列存在异常。
2.根据权利要求1所述的方法,其特征在于,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率之后还包括:
根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
3.根据权利要求2所述的方法,其特征在于,所述针对每个数据子序列,生成概率状态图模型包括:
对每个所述数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为所述概率状态图模型的一个节点;
连接所述概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率包括:
根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述数据子序列中Sj作为Si的后继状态的数据出现的数量,且n为大于1的正整数。
5.根据权利要求2所述的方法,其特征在于,所述根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分包括:
根据公式计算所述数据子序列的异常评分score(Gt),其中,E*表示所述概率状态图模型中有向边的数量,S*表示所述概率状态图模型中数据的状态集合,l为第三预设阈值,反映所述异常评分的敏感度,λ为实数。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述数据子序列中的数据包括单维数据和多维数据。
7.一种数据序列的异常检测装置,所述数据序列包括至少一个数据子序列,所述数据子序列包含至少一个数据,其特征在于,包括:
生成模块,用于针对每个数据子序列,生成概率状态图模型,所述概率状态图模型中包括至少一个节点和至少一条有向边,每个节点表示对应的数据的状态,所述有向边表示所述有向边连接的数据之间的跳转关系;
计算模块,用于根据所述概率状态图模型,计算所述数据子序列中各数据的状态转换概率;
判定模块,用于当判断出所述数据子序列中存在至少一个状态转换概率小于第一预设阈值的数据时,则所述数据所属的数据子序列存在异常。
8.根据权利要求7所述的装置,其特征在于,所述计算模块还用于根据所述数据子序列中各数据的状态转换概率计算所述数据子序列的异常评分,当所述异常评分大于第二预设阈值,则所述数据子序列存在异常。
9.根据权利要求8所述的装置,其特征在于,所述生成模块包括:
划分单元,用于对每个所述数据子序列的数据的状态进行离散化,将离散化后的每个数据的状态作为所述概率状态图模型的一个节点;
处理单元,用于连接所述概率状态图模型中有跳转关系的数据之间对应的节点,并记录跳转次数。
10.根据权利要求9所述的装置,其特征在于,所述计算模块具体用于:根据公式w(i,j)=P(Si,Sj)和P(Si,Sj)=A(Si,Sj)/A(Si),计算当前状态为Si,下一个状态是Sj的数据的状态转换概率w(i,j),其中,A(Si)表示状态为Si的数据的数量,A(Si,Sj)表示在所述数据子序列中Sj作为Si的后继状态的数据出现的数量,且n为大于1的正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610113148.5A CN105808923A (zh) | 2016-02-29 | 2016-02-29 | 一种数据序列的异常检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610113148.5A CN105808923A (zh) | 2016-02-29 | 2016-02-29 | 一种数据序列的异常检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105808923A true CN105808923A (zh) | 2016-07-27 |
Family
ID=56465988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610113148.5A Pending CN105808923A (zh) | 2016-02-29 | 2016-02-29 | 一种数据序列的异常检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808923A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371939A (zh) * | 2016-09-12 | 2017-02-01 | 山东大学 | 一种时序数据异常检测方法及其系统 |
CN108171251A (zh) * | 2016-12-07 | 2018-06-15 | 信阳师范学院 | 一种能够处理重现的概念的检测方法 |
CN108563217A (zh) * | 2018-05-29 | 2018-09-21 | 济南浪潮高新科技投资发展有限公司 | 基于局部和全局统计分析的鲁棒异常检测方法 |
CN108596229A (zh) * | 2018-04-13 | 2018-09-28 | 北京华电智慧科技产业有限公司 | 在线异常的监测诊断方法和系统 |
CN108762201A (zh) * | 2018-04-18 | 2018-11-06 | 南京工业大学 | 一种基于Pearson相关性的大系统图论分解方法 |
CN109905187A (zh) * | 2017-12-11 | 2019-06-18 | 深圳先进技术研究院 | 一种非参数异常值检测方法、系统及电子设备 |
CN110297911A (zh) * | 2018-03-21 | 2019-10-01 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN111353099A (zh) * | 2020-02-24 | 2020-06-30 | 深圳哇哇鱼网络科技有限公司 | 一种多语言输入法中输入状态分析方法及系统 |
CN112101468A (zh) * | 2020-09-18 | 2020-12-18 | 刘吉耘 | 一种在序列组合中判定异常序列的方法 |
CN112612765A (zh) * | 2020-12-21 | 2021-04-06 | 山东理工大学 | 一种基于漂移检测的流程变体差异分析方法与系统 |
CN112986829A (zh) * | 2021-04-21 | 2021-06-18 | 杭州宇谷科技有限公司 | 基于大数据及云计算的电池压差异常阈值确认方法及系统 |
CN113298345A (zh) * | 2021-04-06 | 2021-08-24 | 杭州未名信科科技有限公司 | 异常行为的检测方法、装置、电子设备及介质 |
CN113961258A (zh) * | 2021-10-30 | 2022-01-21 | 重庆长安汽车股份有限公司 | 基于时序转移的汽车状态异常识别方法、系统及存储介质 |
CN114780619A (zh) * | 2022-06-07 | 2022-07-22 | 国网浙江省电力有限公司金华供电公司 | 一种自动工程审价审计数据的异常预警方法 |
US11756179B2 (en) | 2019-11-14 | 2023-09-12 | Pegatron Corporation | Training method for anomaly detection model and electronic device using the same |
CN116763268A (zh) * | 2023-05-10 | 2023-09-19 | 广州培生信息技术有限公司 | 一种人体多指标检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235882A (zh) * | 2013-04-23 | 2013-08-07 | 湖南工学院 | 核电厂数字化主控室操作员监视行为可靠性判定方法 |
CN103793599A (zh) * | 2014-01-17 | 2014-05-14 | 浙江远图智控系统有限公司 | 一种基于隐马尔科夫模型的出行异常检测方法 |
CN104809134A (zh) * | 2014-01-27 | 2015-07-29 | 国际商业机器公司 | 检测数据序列中的异常子序列的方法和设备 |
-
2016
- 2016-02-29 CN CN201610113148.5A patent/CN105808923A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235882A (zh) * | 2013-04-23 | 2013-08-07 | 湖南工学院 | 核电厂数字化主控室操作员监视行为可靠性判定方法 |
CN103793599A (zh) * | 2014-01-17 | 2014-05-14 | 浙江远图智控系统有限公司 | 一种基于隐马尔科夫模型的出行异常检测方法 |
CN104809134A (zh) * | 2014-01-27 | 2015-07-29 | 国际商业机器公司 | 检测数据序列中的异常子序列的方法和设备 |
Non-Patent Citations (1)
Title |
---|
XIAOXIULI989: "Aprior算法分析和改进,基于Markov异常检测模型", 《百度文库》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371939B (zh) * | 2016-09-12 | 2019-03-22 | 山东大学 | 一种时序数据异常检测方法及其系统 |
CN106371939A (zh) * | 2016-09-12 | 2017-02-01 | 山东大学 | 一种时序数据异常检测方法及其系统 |
CN108171251A (zh) * | 2016-12-07 | 2018-06-15 | 信阳师范学院 | 一种能够处理重现的概念的检测方法 |
CN109905187A (zh) * | 2017-12-11 | 2019-06-18 | 深圳先进技术研究院 | 一种非参数异常值检测方法、系统及电子设备 |
CN110297911B (zh) * | 2018-03-21 | 2023-06-30 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN110297911A (zh) * | 2018-03-21 | 2019-10-01 | 国际商业机器公司 | 物联网(iot)计算环境中认知数据管护的方法和系统 |
CN108596229A (zh) * | 2018-04-13 | 2018-09-28 | 北京华电智慧科技产业有限公司 | 在线异常的监测诊断方法和系统 |
CN108762201B (zh) * | 2018-04-18 | 2021-02-09 | 南京工业大学 | 一种基于Pearson相关性的大系统图论分解方法 |
CN108762201A (zh) * | 2018-04-18 | 2018-11-06 | 南京工业大学 | 一种基于Pearson相关性的大系统图论分解方法 |
CN108563217A (zh) * | 2018-05-29 | 2018-09-21 | 济南浪潮高新科技投资发展有限公司 | 基于局部和全局统计分析的鲁棒异常检测方法 |
US11756179B2 (en) | 2019-11-14 | 2023-09-12 | Pegatron Corporation | Training method for anomaly detection model and electronic device using the same |
CN111353099B (zh) * | 2020-02-24 | 2023-12-12 | 深圳哇哇鱼网络科技有限公司 | 一种多语言输入法中输入状态分析方法及系统 |
CN111353099A (zh) * | 2020-02-24 | 2020-06-30 | 深圳哇哇鱼网络科技有限公司 | 一种多语言输入法中输入状态分析方法及系统 |
CN112101468A (zh) * | 2020-09-18 | 2020-12-18 | 刘吉耘 | 一种在序列组合中判定异常序列的方法 |
CN112101468B (zh) * | 2020-09-18 | 2024-04-16 | 刘吉耘 | 一种在序列组合中判定异常序列的方法 |
CN112612765A (zh) * | 2020-12-21 | 2021-04-06 | 山东理工大学 | 一种基于漂移检测的流程变体差异分析方法与系统 |
CN113298345A (zh) * | 2021-04-06 | 2021-08-24 | 杭州未名信科科技有限公司 | 异常行为的检测方法、装置、电子设备及介质 |
CN113298345B (zh) * | 2021-04-06 | 2022-11-18 | 杭州未名信科科技有限公司 | 异常行为的检测方法、装置、电子设备及介质 |
CN112986829B (zh) * | 2021-04-21 | 2021-07-20 | 杭州宇谷科技有限公司 | 基于大数据及云计算的电池压差异常阈值确认方法及系统 |
CN112986829A (zh) * | 2021-04-21 | 2021-06-18 | 杭州宇谷科技有限公司 | 基于大数据及云计算的电池压差异常阈值确认方法及系统 |
CN113961258B (zh) * | 2021-10-30 | 2023-06-30 | 重庆长安汽车股份有限公司 | 基于时序转移的汽车状态异常识别方法、系统及存储介质 |
CN113961258A (zh) * | 2021-10-30 | 2022-01-21 | 重庆长安汽车股份有限公司 | 基于时序转移的汽车状态异常识别方法、系统及存储介质 |
CN114780619A (zh) * | 2022-06-07 | 2022-07-22 | 国网浙江省电力有限公司金华供电公司 | 一种自动工程审价审计数据的异常预警方法 |
CN116763268A (zh) * | 2023-05-10 | 2023-09-19 | 广州培生信息技术有限公司 | 一种人体多指标检测方法及装置 |
CN116763268B (zh) * | 2023-05-10 | 2024-01-26 | 广州培生信息技术有限公司 | 一种人体多指标检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808923A (zh) | 一种数据序列的异常检测方法和装置 | |
Wang et al. | Complex event processing over distributed probabilistic event streams | |
CN114785666B (zh) | 一种网络故障排查方法与系统 | |
JP6183449B2 (ja) | システム分析装置、及び、システム分析方法 | |
CN112565187B (zh) | 基于逻辑回归的电网攻击检测方法、系统、设备及介质 | |
CN104123448B (zh) | 基于上下文的多数据流异常检测方法 | |
CN111541559A (zh) | 一种基于因果规则的故障定位方法 | |
Urabe et al. | Real-time change-point detection using sequentially discounting normalized maximum likelihood coding | |
CN112258689B (zh) | 船舶数据处理方法、装置和船舶数据质量管理平台 | |
Alevizos et al. | Complex event recognition under uncertainty: A short survey | |
CN113516174A (zh) | 调用链异常检测方法、计算机设备以及可读存储介质 | |
CN115756929A (zh) | 一种基于动态服务依赖图的异常根因定位方法及系统 | |
CN110266527B (zh) | 基于空间相关性的传感器节点故障分类报警方法及装置 | |
CN113779590B (zh) | 一种基于多维度表征的源代码漏洞检测方法 | |
Pei et al. | Dynmf: Role analytics in dynamic social networks. | |
CN105390132A (zh) | 一种基于语言模型的应用协议识别方法及系统 | |
Ghodratnama et al. | Am i rare? an intelligent summarization approach for identifying hidden anomalies | |
CN107579944A (zh) | 基于人工智能和MapReduce安全攻击预测方法 | |
CN105184373A (zh) | 贝叶斯网络结构学习方法、系统及可靠性模型构建方法 | |
Caiyan et al. | An algorithm for mining frequent closed itemsets with density from data streams | |
Zhang et al. | A novel key performance indicator oriented process monitoring method based on multiple information extraction and support vector data description | |
Javidian et al. | Learning LWF chain graphs: an order independent algorithm | |
Yao et al. | Scalable classification for large dynamic networks | |
Zhou et al. | A novel system anomaly prediction system based on belief markov model and ensemble classification | |
Ding et al. | A data analytic engine towards self-management of cyber-physical systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160727 |