CN110209560A - 数据异常检测方法及检测装置 - Google Patents
数据异常检测方法及检测装置 Download PDFInfo
- Publication number
- CN110209560A CN110209560A CN201910385262.7A CN201910385262A CN110209560A CN 110209560 A CN110209560 A CN 110209560A CN 201910385262 A CN201910385262 A CN 201910385262A CN 110209560 A CN110209560 A CN 110209560A
- Authority
- CN
- China
- Prior art keywords
- data
- user behavior
- detection
- behavior pattern
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据异常检测方法和检测装置,数据异常检测方法包括:获取针对用户的历史数据,并按预设周期,从历史数据中挖掘出以预设周期为单位的若干个用户行为模式;根据当前周期中的设定时间段内的已检测数据,确定当前周期对应的用户行为模式,并基于该用户行为模式对当前周期的待检测数据进行预测,以得到预测数据;以及根据预测数据,利用预先构建的检测模型,对所检测的数据进行异常检测。通过上述技术方案,基于根据用户的历史数据挖掘出的用户行为模式对数据进行预测,能够得到较为合理的预测值,并且通过检测模型进行异常判断,避免了判定阈值的设置过程,从而避免判定阈值设置不准确带来检测结果不准确的问题。
Description
技术领域
本发明涉及计算机网络技术领域,具体地涉及一种数据异常检测方法及检测装置。
背景技术
近年来,时序数据预测以及异常检测得到越来越多的关注,国内外的互联网公司都开始利用异常检测技术对其运维及相关的时序数据进行监控,以便在第一时间发现异常事件,从而减少异常事件造成的损失。对于部分核心数据的曲线,例如核心产品的收入数据曲线,其数据缓慢下跌的异常情况也需要及时发现并密切关注。
而现有技术中通常利用同比算法直接将昨天或者上周同天的数据作为预测值,并根据检测值与预测值比较,进行计算得到的下跌比例,作为数据异常判断的依据。如此的简单同比算法存在以下两个问题:
1、预测值不准确。受节假日、调休等情况的影响,用户的行为可能与昨天或者上周同天存在较大差别,这直接导致某一数据的预测值实际上应与昨天、上周同天的数据曲线形状明显不同,另外受业务自然增长趋势的影响,某一数据当天的水位相较于昨天或上周同天可会能发生较大变化。因此直接将昨天、上周同天数据作为预测值,明显并不够准确。
2、下跌比例的阈值设置困难。由于通常情况下白天数据波动小、晚上数据波动大,而简单的将检测值相对于预测值的下跌比例作为判断依据的话,需要根据数据本身的波动情况来调整下跌比例阈值,很难做到精细异常检测。
因此现有技术的数据异常检测方法容易导致无法发现数据的缓慢下跌等异常情况,并且容易出现数据异常的误报现象,尤其在节假日、调休期间,其检测结果参考价值极低。
发明内容
本发明的目的是为了克服现有技术存在的预测值不准确和数据异常的判定阈值设置困难问题,提供一种数据异常检测方法和检测装置。
为了实现上述目的,本发明一方面提供一种数据异常检测方法,所述数据异常检测方法包括:获取针对用户的历史数据,并按预设周期,从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式;根据设定时间段内的已检测数据,从所述若干个用户行为模式确定当前周期对应的所述用户行为模式,并基于该用户行为模式对所述当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期;以及根据所述预测数据,利用预先构建的检测模型,对所述当前周期的待检测数据进行异常检测。
进一步的,所述从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式包括:对所述历史数据进行归一化处理;对所述历史数据进行剔除异常数据操作;以及利用聚类算法,从经过所述归一化处理和所述剔除异常数据操作的所述历史数据中,挖掘出若干个所述用户行为模式。
进一步的,所述从所述若干个用户行为模式确定当前周期对应的所述用户行为模式包括:根据设定时间段内的已检测数据,预测当前周期的预测数据水位;根据所述预测数据水位,将若干个所述用户行为模式进行反归一化处理;以及根据经过所述反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期对应的所述用户行为模式。
进一步的,所述确定当前周期对应的所述用户行为模式还包括:利用预先构建的拟合模型,动态调整当前周期的所述用户行为模式。
进一步的,所述对所检测的数据进行异常检测包括:设置两个或多个检测窗口,并利用所述检测模型,对所述当前周期的待检测数据进行异常检测,其中所述检测模型预先使用泊松分布进行构建。
相应的,本发明实施例还提供一种数据异常检测装置,所述数据异常检测装置包括:挖掘模块,用于获取针对用户的历史数据,并按预设周期,从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式;预测模块,用于根据设定时间段内的已检测数据,从所述若干个用户行为模式确定当前周期对应的所述用户行为模式,并基于该用户行为模式对所述当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期;以及检测模块,用于根据所述预测数据,利用预先构建的检测模型,对所述当前周期的待检测数据进行异常检测。
进一步的,所述挖掘模块包括:预处理子模块,用于对所述历史数据进行归一化处理;筛选子模块,用于对所述历史数据进行剔除异常数据操作;以及挖掘子模块,用于利用聚类算法,从经过所述归一化处理和所述剔除异常操作的所述历史数据中,挖掘出若干个所述用户行为模式。
进一步的,所述预测模块包括:预测子模块,用于根据设定时间段内的已检测数据,预测当前周期的预测数据水位;模式处理子模块,用于根据所述预测数据水位,将若干个所述用户行为模式进行反归一化处理;以及拟合子模块,用于根据所述反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期的所述用户行为模式。
进一步的,所述预测模块还包括:调整子模块,用于利用预先构建的拟合模型,动态调整当前周期的所述用户行为模式。
进一步的,所述检测模块包括:设置子模块,用于设置两个或多个检测窗口;以及检测子模块,用于利用所述检测模型,对所述当前周期的待检测数据进行异常检测,其中所述检测模型预先使用泊松分布构建。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述数据异常检测方法。
相应地,本发明实施例还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行上述数据异常检测方法。
通过上述技术方案,基于根据用户的历史数据挖掘出的用户行为模式对数据进行预测,能够得到较为合理的预测值,并且通过检测模型进行异常判断,避免了判定阈值的设置过程,从而避免判定阈值设置不准确带来检测结果不准确的问题。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的数据异常检测方法的流程图;
图2是本发明实施例提供的挖掘用户行为模式的流程图;
图3是本发明实施例提供的确定当前周期对应的用户行为模式的流程图;
图4是本发明实施例提供的数据异常检测方法应用示例的流程图;
图5是本发明实施例提供的数据异常检测装置的框图;
图6是本发明实施例提供的挖掘模块的框图;
图7是本发明实施例提供的预测模块的框图;以及
图8是本发明实施例提供的检测模块的框图。
附图标记说明
1、挖掘模块 2、预测模块 3、检测模块
4、预处理子模块 5、筛选子模块 6、挖掘子模块
7、预测子模块 8、模式处理子模块 9、拟合子模块
10、设置子模块 11、检测子模块
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明实施例提供的数据异常检测方法的流程图,如图1所示,可以包括如下步骤:
S100、挖掘用户行为模式。
优选的,通过获取针对用户的历史数据,并按预设周期,从历史数据中挖掘出以预设周期为单位的若干个用户行为模式。
具体来讲,由于受到周末、法定节假日、调休等影响,检测的用户数据以前一天、上周同天、上月同天或去年同天的数据为依据,来判定所检测到的数据是否发生异常,参考价值较低,因此,本发明中引入用户行为模式的概念,从针对用户的历史数据中,挖掘出以预设周期为单位的若干个用户行为模式。其中预设周期的设置主要是为了设定一个时间周期来对用户行为模式进行挖掘。例如以一天为预设周期,则用户行为模式是以一天为单位来划分的。
需要说明的是,如无特别说明,本发明下文中均以预设周期为一天来说明本发明实施例的具体实施方式。
举例说明,以某个商城的每天的收入为检测指标(即用户数据),以一天为预设周期,要挖掘用户行为模式,首先将针对用户的历史数据按天切分,经过数据处理后,得到以一天为单位的若干用户行为模式,即每一天对应一个相应的用户行为模式。
图2是本发明实施例提供的挖掘用户行为模式的流程图,如图2所示,从历史数据中挖掘出以预设周期为单位的若干个用户行为模式可以包括如下步骤:
S101、对历史数据进行归一化处理。
简单来讲,数据的归一化处理过程就是将有量纲的数据转化为无量纲的数据的过程。由于预设周期内,用户数据的水位不同,因此需要对数据进行归一化处理,以使数据更具有参考价值。
本发明的实施例中,按天对针对用户的历史数据进行切割,对切割后的历史数据的累积曲线进行归一化处理,归一化处理后的曲线上每一个点代表当天截止到该时刻的数据之和在当天总和的占比。
此处水位是指预设周期中数据能够达到的值。举例说明,检测数据为某网络公司当天的收入,在3月份的某一天中,当天的收入达到1亿元,则数据当天的水位为1亿元。
S102、对历史数据进行剔除异常数据操作。
将历史数据中存在脏数据(如数据存在重大异常)剔除,优选的,采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise,聚类算法,是一个比较有代表性的基于密度的聚类算法,与划分聚类算法和层次聚类算法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类)算法,对离群点(即上文中提到的脏数据)进行挑选、剔除。当然,如果历史数据有标注(此处是指用户对历史数据中的某一天或多天数据进行过异常标注,例如:用户标注某一天中数据检测设备故障,数据不可参考),可以将标注有异常的数据直接剔除。
S103、挖掘出若干个用户行为模式。
优选的,利用聚类算法,从经过归一化处理和剔除异常数据操作的历史数据中,挖掘出若干个用户行为模式。
本发明的优选实施例中利用层次聚类算法对用户行为模式进行挖掘,经过层次聚类算法处理的历史数据能够形成多个簇,其中每一簇代表一种用户行为模式。
进一步的,根据每一簇里的数据曲线,计算该用户行为模式的模型,本发明的优选实施例中采用一种基于整体占比的方法,利用公式(1)来计算每个用户行为模式的模型,得到能够表示该用户行为模式下,每一时刻对应的归一化之后的值的用户行为模式模型,用户行为模式模型里的每个点代表在该用户行为模式下相应时刻的数据占当天数据总和的占比。
其中,m表示组成某一个簇的天数,1≤i≤m;
T表示每天的数据点的个数,1≤t≤T;
p(t)表示该用户行为模式模型里第t个时刻的值,是归一化的值;
x(i,t)表示第i天t时刻的数据的值,也即该簇中各原始曲线;以及
N(i)表示第i天的数据的一天的总和,采用上述公式(2)计算得到。
S200、确定用户行为模式,进行数据预测。
优选的,根据设定时间段内的已检测数据,从若干个用户行为模式确定当前周期对应的用户行为模式,并基于该用户行为模式对当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期。
图3是本发明实施例提供的确定当前周期对应的用户行为模式的流程图,如图3所示,可以包括如下步骤:
S201、预测当前周期的预测数据水位。
优选的,根据设定时间段内的已检测数据,预测当前周期的预测数据水位。
其中,设定时间段内的已检测数据是基于步骤S100中用户行为模式提出的。
具体来讲,仍然以一天为预设周期,则当前周期是指当天,设定时间段可以是设定当天的前半天或前六个小时,以下以本发明两个优选实施例来具体说明该问题。
在本发明的第一优选实施例中,以当天的前半天为设定时间段,并以当天的前半天的已检测数据来确定当天的用户行为模式。
在本发明的第二优选实施例中,以当天的前半天为第一设定时间段,并以当天的前半天的已检测数据来预测当天的预测数据水位,以进一步确定当天的用户行为模式。此外,该实施例中还以前一天的后半天为第二设定时间段,并以前一天的后半天的已检测数据,来预测前一天中午十二点至当天中午十二点的预测数据水位,以进一步确定前一天中午十二点至当天中午十二点的用户行为模式,以使得每时每刻的待检测数据都可以匹配到相应的用户行为模式。
S202、对若干个用户行为模式进行反归一化处理。
优选的,根据预测数据水位,将若干个用户行为模式进行反归一化处理。
具体来讲,在步骤S100中得到的用户行为模式是经过归一化处理的,此处根据预测数据水位,再对若干个用户行为模式再进行反归一化处理,将用户行为模式模型进行展开,得到更具有参考价值的用户行为模式模型展开曲线,以在步骤S203中确定更为合理准确的当前周期对应的用户行为模式。
S203、确定当前周期对应的用户行为模式。
优选的,根据经过反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期对应的用户行为模式。
在本发明的优选实施例中,利用最大似然估计的方法来构建拟合模型,从所有的用户行为模式模型展开曲线中挑选一个与实际曲线(即当前周期中的设定时间段内的已检测数据)拟合最好的曲线。具体来讲,就是将实际曲线上与所有的用户行为模式模型展开曲线进行一一匹配,选择均方误差最小的用户行为模式作为当前周期的用户行为模式。
进一步的,确定当前周期对应的用户行为模式还包括:利用预先构建的拟合模型,动态调整当前周期的用户行为模式。
以下以具体应用示例来说明确定用户行为模式,进行数据预测的过程。
首先根据用户前半天的数据对当天的水位进行预测,然后利用前半天数据确定的合适的用户行为模式的模型对后半天的数据进行预测。其中,当天的水位是指当天数据可以达到的值。以某网站当天的收入为例,上午7:00该网站的收入为3.3万元,下午15:00该网站的收入达到8.6万元,用户数据是一个递增的量,当天的水位是指该网站当天的收入可以达到的值。
具体来讲,首先进行水位预估及模式展开。优选的,采用最大似然估计的方法对当天的水位进行预估,并根据水位预估值对步骤S103中得到的用户行为模式的模型进行展开(即反归一化处理)。每个用户行为模式模型均可以得到一个展开曲线,每个展开曲线代表该用户行为模式对应的用户数据的预测值。
其次,对数据进行预测,从所有的用户行为模式模型展开曲线中挑选一个与实际曲线(即当前周期中的设定时间段内的已检测数据)拟合最好的曲线。选择拟合效果最好的曲线的过程是一个动态调整的过程,最开始的时候,已检测到的数据较少,选择整体拟合效果最好的模式,优选的采用MSE(Mean Square Error MSE,网络的均方误差,是一种网络的性能函数)来判断用户行为模式模型展开曲线与实际曲线的拟合效果。随着已检测到的数据的增多,调整为拟合效果更好的用户行为模式。调整的原则为:优先选择整体拟合效果好且局部拟合效果也好的模式的用户行为模式,在无法保证整体拟合效果和局部拟合效率都好的情况下,选择整体拟合效果稍差但几乎无数据突变情况的用户行为模式。该用户行为模式调整方法可以保证在得到较好的预测值的前提下,尽量的减少用户行为模式的切换频率。
S300、基于预测数据进行异常检测。
优选的,根据步骤S200中得到的预测数据,设置两个或多个检测窗口,并利用所述检测模型,对所述当前周期的待检测数据进行异常检测,其中所述检测模型预先使用泊松分布进行构建。
举例说明,本发明实施例中利用泊松分布来构建检测模型,泊松分布是描述单位时间内随机事件发生次数的概率分布。当检测到利用检测模型计算得到的用户数据小于等于设定概率阈值时,可以认为此时发生了突降异常。为了及时发现用户数据的缓慢下跌或缓慢上升的情况,设置较大的检测窗口(即以较长时间为检测周期,例如以每1小时或每2小时的数据作为检测对象),同时还要保证检测模型能及时发现用户数据的突变情况,需要设置较小的检测窗口(即以较短时间为检测周期,例如以每1分钟或每5分钟的数据作为检测对象)。
基于泊松分布的检测算法,可以从概率的角度构建用户数据的检测模型,能够使用简单的恒定阈值来精准地检测用户数据异常。
以下以具体应用示例说明本发明的数据异常检测方法。
图4是本发明实施例提供的数据异常检测方法应用示例的流程图,如图4所示,首先,进行用户行为模式的挖掘,针对用户历史数据,进行归一化处理,并利用聚类算法挖掘出多个用户行为模式。其次,基于用户行为模式,对数据进行预测,以当天的前半天数据预测当天的后半天数据,或以前一天的后半天数据预测当前的前半天的数据。数据预测过程中需要首先预测水位(即当天数据能够达到的值),然后再进行用户行为模式的展开,也即对用户行为模式的反归一化处理,基于反归一化处理过后的用户行为模式模型,采用拟合算法确定一个合适的用户行为模式。最后,基于所选择的用户行为模式,对数据进行异常检测。
图5是本发明实施例提供的数据异常检测装置的框图,如图5所示,数据异常检测装置包括:挖掘模块1,用于获取针对用户的历史数据,并按预设周期,从历史数据中挖掘出以预设周期为单位的若干个用户行为模式;预测模块2,用于根据设定时间段内的已检测数据,从若干个用户行为模式确定当前周期对应的用户行为模式,并基于该用户行为模式对当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期;以及检测模块3,用于根据预测数据,利用预先构建的检测模型,对所述当前周期的待检测数据进行异常检测。
图6是本发明实施例提供的挖掘模块的框图,如图6所述挖掘模块1包括:预处理子模块4,用于对历史数据进行归一化处理;筛选子模块5,用于对历史数据进行剔除异常数据操作;以及挖掘子模块6,用于利用聚类算法,从经过归一化处理和剔除异常操作的历史数据中,挖掘出若干个用户行为模式。
图7是本发明实施例提供的预测模块的框图,如图7所示,预测模块2包括:预测子模块7,用于根据设定时间段内的已检测数据,预测当前周期的预测数据水位;模式处理子模块8,用于根据预测数据水位,将若干个用户行为模式进行反归一化处理;以及拟合子模块9,用于根据反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期的用户行为模式。
进一步的,预测模块2还包括:调整子模块(图中未示出),用于利用预先构建的拟合模型,动态调整当前周期的用户行为模式。
图8是本发明实施例提供的检测模块的框图,如图8所示,检测模块3包括:设置子模块10,用于设置两个或多个检测窗口;以及检测子模块11,用于利用所述检测模型,对所检测的数据进行异常检测,其中所述检测模型预先使用泊松分布构建。
数据异常检测装置的其他具体实施细节同上述数据异常检测方法,此处不再赘述。
相应地,本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述数据异常检测方法。
相应地,本发明实施例还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行上述数据异常检测方法。
通过上述技术方案,基于根据用户的历史数据挖掘出的用户行为模式对数据进行预测,能够得到较为合理的预测值,并且通过检测模型进行异常判断,避免了判定阈值的设置过程,从而避免判定阈值设置不准确带来检测结果不准确的问题。
此外,本发明根据针对用户的历史数据,挖掘出若干个用户行为模式,并基于用户行为模式得到精确的预测值,以及基于概率利用多个不同的检测窗口进行异常检测,能够在快速发现突降类故障的同时,及时发现长时间缓跌等故障的能力。使用本发明可以及时发现用户数据异常,及时分析问题,减少因此引发的损失。此外,本发明实施例提供的数据异常检测方法不需要运维人员配置检测阈值,可以有效降低人工成本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种数据异常检测方法,其特征在于,所述数据异常检测方法包括:
获取针对用户的历史数据,并按预设周期,从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式;
根据设定时间段内的已检测数据,从所述若干个用户行为模式确定当前周期对应的所述用户行为模式,并基于该用户行为模式对所述当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期;以及
根据所述预测数据,利用预先构建的检测模型,对所述当前周期的待检测数据进行异常检测。
2.根据权利要求1所述的数据异常检测方法,其特征在于,所述从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式包括:
对所述历史数据进行归一化处理;
对所述历史数据进行剔除异常数据操作;以及
利用聚类算法,从经过所述归一化处理和所述剔除异常数据操作的所述历史数据中,挖掘出若干个所述用户行为模式。
3.根据权利要求1所述的数据异常检测方法,其特征在于,所述从所述若干个用户行为模式确定当前周期对应的所述用户行为模式包括:
根据设定时间段内的已检测数据,预测当前周期的预测数据水位;
根据所述预测数据水位,将若干个所述用户行为模式进行反归一化处理;以及
根据经过所述反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期对应的所述用户行为模式。
4.根据权利要求3所述的数据异常检测方法,其特征在于,所述确定当前周期对应的所述用户行为模式还包括:
利用预先构建的拟合模型,动态调整当前周期的所述用户行为模式。
5.根据权利要求1所述的数据异常检测方法,其特征在于,所述对所检测的数据进行异常检测包括:设置两个或多个检测窗口,并利用所述检测模型,对所述当前周期的待检测数据进行异常检测,其中所述检测模型预先使用泊松分布进行构建。
6.一种数据异常检测装置,其特征在于,所述数据异常检测装置包括:
挖掘模块,用于获取针对用户的历史数据,并按预设周期,从所述历史数据中挖掘出以所述预设周期为单位的若干个用户行为模式;
预测模块,用于根据设定时间段内的已检测数据,从所述若干个用户行为模式确定当前周期对应的所述用户行为模式,并基于该用户行为模式对所述当前周期的待检测数据进行预测,以得到预测数据,其中所述设定时间段小于所述预设周期;以及
检测模块,用于根据所述预测数据,利用预先构建的检测模型,对所述当前周期的待检测数据进行异常检测。
7.根据权利要求6所述的数据异常检测装置,其特征在于,所述挖掘模块包括:
预处理子模块,用于对所述历史数据进行归一化处理;
筛选子模块,用于对所述历史数据进行剔除异常数据操作;以及
挖掘子模块,用于利用聚类算法,从经过所述归一化处理和所述剔除异常操作的所述历史数据中,挖掘出若干个所述用户行为模式。
8.根据权利要求6所述的数据异常检测装置,其特征在于,所述预测模块包括:
预测子模块,用于根据设定时间段内的已检测数据,预测当前周期的预测数据水位;
模式处理子模块,用于根据所述预测数据水位,将若干个所述用户行为模式进行反归一化处理;以及
拟合子模块,用于根据所述反归一化处理后的用户行为模式,利用预先构建的拟合模型,确定当前周期的所述用户行为模式。
9.根据权利要求8所述的数据异常检测装置,其特征在于,所述预测模块还包括:调整子模块,用于利用预先构建的拟合模型,动态调整当前周期的所述用户行为模式。
10.根据权利要求6所述的数据异常检测装置,其特征在于,所述检测模块包括:
设置子模块,用于设置两个或多个检测窗口;以及
检测子模块,用于利用所述检测模型,对所所述当前周期的待检测数据进行异常检测,其中所述检测模型预先使用泊松分布构建。
11.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-5中任一项所述的数据异常检测方法。
12.一种处理器,其特征在于,用于运行程序,其中,所述程序被运行时用于执行权利要求1-5中任一项所述的数据异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385262.7A CN110209560B (zh) | 2019-05-09 | 2019-05-09 | 数据异常检测方法及检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910385262.7A CN110209560B (zh) | 2019-05-09 | 2019-05-09 | 数据异常检测方法及检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209560A true CN110209560A (zh) | 2019-09-06 |
CN110209560B CN110209560B (zh) | 2023-05-12 |
Family
ID=67787030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910385262.7A Active CN110209560B (zh) | 2019-05-09 | 2019-05-09 | 数据异常检测方法及检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209560B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990819A (zh) * | 2019-12-25 | 2020-04-10 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111061376A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户换机的方法和服务器 |
CN111062353A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111062352A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户步态的方法和服务器 |
CN111126294A (zh) * | 2019-12-25 | 2020-05-08 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户步态的方法和服务器 |
CN111142688A (zh) * | 2019-12-25 | 2020-05-12 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户换机的方法和服务器 |
CN111556057A (zh) * | 2020-04-29 | 2020-08-18 | 绿盟科技集团股份有限公司 | 一种流量异常检测方法、装置、电子设备及存储介质 |
CN112328424A (zh) * | 2020-12-03 | 2021-02-05 | 之江实验室 | 一种用于数值型数据的智能异常检测方法及装置 |
CN112559803A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种基于迭代的数据异常检测方法和检测系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104063747A (zh) * | 2014-06-26 | 2014-09-24 | 上海交通大学 | 一种分布式系统中的性能异常预测方法及系统 |
CN105409306A (zh) * | 2014-06-11 | 2016-03-16 | 华为技术有限公司 | 移动终端位置预测方法及装置 |
CN105843947A (zh) * | 2016-04-08 | 2016-08-10 | 华南师范大学 | 基于大数据关联规则挖掘的异常行为检测方法和系统 |
CN105847598A (zh) * | 2016-04-05 | 2016-08-10 | 浙江远传信息技术股份有限公司 | 呼叫中心多因子话务预测方法及其装置 |
CN105871879A (zh) * | 2016-05-06 | 2016-08-17 | 中国联合网络通信集团有限公司 | 网元异常行为自动检测方法及装置 |
CN108076019A (zh) * | 2016-11-17 | 2018-05-25 | 北京金山云网络技术有限公司 | 基于流量镜像的异常流量检测方法及装置 |
CN109375609A (zh) * | 2018-10-18 | 2019-02-22 | 北京鼎力信安技术有限公司 | 异常攻击的检测方法及装置 |
CN109726858A (zh) * | 2018-12-21 | 2019-05-07 | 新奥数能科技有限公司 | 基于动态时间规整的热负荷预测方法及装置 |
-
2019
- 2019-05-09 CN CN201910385262.7A patent/CN110209560B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105409306A (zh) * | 2014-06-11 | 2016-03-16 | 华为技术有限公司 | 移动终端位置预测方法及装置 |
CN104063747A (zh) * | 2014-06-26 | 2014-09-24 | 上海交通大学 | 一种分布式系统中的性能异常预测方法及系统 |
CN105847598A (zh) * | 2016-04-05 | 2016-08-10 | 浙江远传信息技术股份有限公司 | 呼叫中心多因子话务预测方法及其装置 |
CN105843947A (zh) * | 2016-04-08 | 2016-08-10 | 华南师范大学 | 基于大数据关联规则挖掘的异常行为检测方法和系统 |
CN105871879A (zh) * | 2016-05-06 | 2016-08-17 | 中国联合网络通信集团有限公司 | 网元异常行为自动检测方法及装置 |
CN108076019A (zh) * | 2016-11-17 | 2018-05-25 | 北京金山云网络技术有限公司 | 基于流量镜像的异常流量检测方法及装置 |
CN109375609A (zh) * | 2018-10-18 | 2019-02-22 | 北京鼎力信安技术有限公司 | 异常攻击的检测方法及装置 |
CN109726858A (zh) * | 2018-12-21 | 2019-05-07 | 新奥数能科技有限公司 | 基于动态时间规整的热负荷预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
SHRUTI GUPTA等: "Novel technique for prediction analysis using normalization for an improvement in K-means clustering", 《2016 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY (INCITE) - THE NEXT GENERATION IT SUMMIT ON THE THEME - INTERNET OF THINGS: CONNECT YOUR WORLDS》 * |
郭兰平: "改进RBF神经网络在城市公交车速时间序列预测中的应用", 《重庆理工大学学报(自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990819A (zh) * | 2019-12-25 | 2020-04-10 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111061376A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户换机的方法和服务器 |
CN111062353A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111062352A (zh) * | 2019-12-25 | 2020-04-24 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户步态的方法和服务器 |
CN111126294A (zh) * | 2019-12-25 | 2020-05-08 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户步态的方法和服务器 |
CN111142688A (zh) * | 2019-12-25 | 2020-05-12 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据识别终端用户换机的方法和服务器 |
CN110990819B (zh) * | 2019-12-25 | 2023-04-21 | 每日互动股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111062353B (zh) * | 2019-12-25 | 2023-04-28 | 每日互动股份有限公司 | 一种基于移动终端数据获取终端用户步态特征数据的方法和服务器 |
CN111556057A (zh) * | 2020-04-29 | 2020-08-18 | 绿盟科技集团股份有限公司 | 一种流量异常检测方法、装置、电子设备及存储介质 |
CN112559803A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种基于迭代的数据异常检测方法和检测系统 |
CN112328424A (zh) * | 2020-12-03 | 2021-02-05 | 之江实验室 | 一种用于数值型数据的智能异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110209560B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209560A (zh) | 数据异常检测方法及检测装置 | |
US11544426B2 (en) | Systems and methods for enhanced sequential power system model parameter estimation | |
Pineda et al. | Data-driven screening of network constraints for unit commitment | |
Ezzat et al. | Spatio-temporal short-term wind forecast: A calibrated regime-switching method | |
CN106549772B (zh) | 资源预测方法、系统和容量管理装置 | |
Hill et al. | Real-time Bayesian anomaly detection for environmental sensor data | |
CN106126391A (zh) | 系统监控方法和装置 | |
CN110794229B (zh) | 用于表征电气系统中电能质量事件的补充技术 | |
US7313568B2 (en) | Generating and analyzing business process-aware modules | |
Porteiro et al. | Electricity demand forecasting in industrial and residential facilities using ensemble machine learning | |
Sari et al. | Statistical metrics for assessing the quality of wind power scenarios for stochastic unit commitment | |
CN115118580B (zh) | 告警分析方法以及装置 | |
CN116091118A (zh) | 电价预测方法、装置、设备、介质及产品 | |
Murgatroyd et al. | Selecting indicators and optimizing decision rules for long‐term water resources planning | |
CN111798066A (zh) | 一种城市尺度下小区流量多维度预测方法及系统 | |
CN105005575A (zh) | 一种企业智能预测快速开发接口方法 | |
CN113688542A (zh) | 智能优化水资源配置方法、装置、计算机设备及存储介质 | |
CN111800807A (zh) | 一种基站用户数量告警的方法及装置 | |
CN109976986A (zh) | 异常设备的检测方法及装置 | |
Rosato et al. | Integrating resilience in time-based dependency analysis: a large-scale case study for urban critical infrastructures | |
CN111614520A (zh) | 一种基于机器学习算法的idc流量数据预测方法及装置 | |
Castro-Gama et al. | A Bird’s-Eye View of Data Validation in the Drinking Water Industry of the Netherlands | |
Filipova-Petrakieva et al. | Short-Term Forecasts of the Electrical Energy Consumption in Republic of Bulgaria | |
Dilini et al. | Effective water management in the mahaweli reservoir system: Analyzing the inflow of the upmost reservoir | |
Khazaeni et al. | Intelligent time successive production modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |