CN114282169A - 一种异常数据的检测方法以及相关装置 - Google Patents
一种异常数据的检测方法以及相关装置 Download PDFInfo
- Publication number
- CN114282169A CN114282169A CN202111187372.6A CN202111187372A CN114282169A CN 114282169 A CN114282169 A CN 114282169A CN 202111187372 A CN202111187372 A CN 202111187372A CN 114282169 A CN114282169 A CN 114282169A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- data sequence
- determining
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 129
- 238000001514 detection method Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 230000005856 abnormality Effects 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 11
- 238000005562 fading Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002547 anomalous effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001680 brushing effect Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种异常数据的检测方法以及相关装置,可应用于地图领域。通过获取目标指标对应的历史数据序列确定数据波动范围;然后根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态;并根据隐状态确定作用于目标数据序列的数据预测方式;进而采用数据预测方式预测在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种异常数据的检测方法以及相关装置。
背景技术
为了维持广告生态,保护广告主利益以维持广告主、流量和平台三方共赢的状态,需要对恶意刷量作弊以获得额外分成的流量进行过滤,随着对抗作弊不断升级,线上积累了许多反作弊策略,但随着时间推移由于各种原因会造成策略一定程度的漏过和误过,因此有了对策略进行监控的需求,以尽快发现策略漏过、误过,即为一种异常检测的过程。
一般,异常检测可以通过对固定指标进行阈值判断确定,例如数据的波动性超过阈值范围。
但是,在海量流量的场景中,阈值判断的过程无法满足所有场景的判断需求,可能出现由于数据波动造成阈值设置不准确的情况,影响异常判断的准确性。
发明内容
有鉴于此,本申请提供一种异常数据的检测方法,可以有效提高异常数据检测的准确性。
本申请第一方面提供一种异常数据的检测方法,可以应用于终端设备中包含异常数据的检测功能的系统或程序中,具体包括:
获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围;
调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数;
基于配置所述模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,所述目标数据序列基于所述目标指标统计所得;
根据所述隐状态确定作用于所述目标数据序列的数据预测方式,所述数据预测方式包括第一算法和第二算法,所述第一算法用于在异常消退时段中规避所述第二算法产生的数据异常;
基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述根据所述隐状态确定作用于所述目标数据序列的数据预测方式,包括:
若所述隐状态指示当前时刻为异常时刻,则确定作用于所述目标数据序列的数据预测方式为三次方回归算法;
所述基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测,包括:
基于所述历史数据序列采用所述三次方回归算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
调用所述预测值对所述目标数据序列在下一时刻的实际值进行更新,以得到覆盖值;
基于所述覆盖值执行所述目标数据序列中后续时刻的预测。
可选的,在本申请一些可能的实现方式中,所述根据所述隐状态确定作用于所述目标数据序列的数据预测方式,包括:
若所述隐状态指示当前时刻为正常时刻,则确定作用于所述目标数据序列的数据预测方式为移动平均算法;
所述基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测,包括:
基于所述历史数据序列采用所述移动平均算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围,包括:
获取所述目标指标对应的所述历史数据序列;
确定所述历史数据序列中相邻时刻之间的变化率,以作为第一分布参数;
将所述第一分布参数覆盖范围以外的计算分布作为第二分布参数;
基于所述第一分布参数和所述第二分布参数确定所述目标指标对应的数据波动范围;
所述调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数,包括:
调用所述隐马尔可夫模型;
根据所述目标指标中异常时刻的出现频次与正常时刻的出现频次确定所述隐马尔可夫模型的状态转移矩阵;
根据所述第一分布参数和所述第二分布参数确定所述隐马尔可夫模型的释放函数;
基于所述状态转移矩阵和所述释放函数对所述模型参数进行配置。
可选的,在本申请一些可能的实现方式中,所述方法还包括:
获取预设时间段内所述异常检测中确定的异常时刻;
基于所述异常时刻对所述目标项目对应的数据集进行标记,以得到标记数据集;
将所述标记数据集进行上报,以确定所述目标项目对应的作弊标识。
可选的,在本申请一些可能的实现方式中,所述异常数据的检测方法应用于广告异常流量检测,所述目标项目包括策略过滤数、大盘点击数、大盘收入和大盘点击率。
本申请第二方面提供一种异常数据的检测装置,包括:
获取单元,用于获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围;
确定单元,用于调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数;
所述确定单元,还用于基于配置所述模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,所述目标数据序列基于所述目标指标统计所得;
所述确定单元,还用于根据所述隐状态确定作用于所述目标数据序列的数据预测方式,所述数据预测方式包括第一算法和第二算法,所述第一算法用于在异常消退时段中规避所述第二算法产生的数据异常;
检测单元,用于基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于若所述隐状态指示当前时刻为异常时刻,则确定作用于所述目标数据序列的数据预测方式为三次方回归算法;
所述检测单元,具体用于基于所述历史数据序列采用所述三次方回归算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于调用所述预测值对所述目标数据序列在下一时刻的实际值进行更新,以得到覆盖值;
基于所述覆盖值执行所述目标数据序列中后续时刻的预测。
可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于若所述隐状态指示当前时刻为正常时刻,则确定作用于所述目标数据序列的数据预测方式为移动平均算法;
所述检测单元,具体用于基于所述历史数据序列采用所述移动平均算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述获取单元,具体用于获取所述目标指标对应的所述历史数据序列;
所述获取单元,具体用于确定所述历史数据序列中相邻时刻之间的变化率,以作为第一分布参数;
所述获取单元,具体用于将所述第一分布参数覆盖范围以外的计算分布作为第二分布参数;
所述获取单元,具体用于基于所述第一分布参数和所述第二分布参数确定所述目标指标对应的数据波动范围;
所述确定单元,具体用于调用所述隐马尔可夫模型;
所述确定单元,具体用于根据所述目标指标中异常时刻的出现频次与正常时刻的出现频次确定所述隐马尔可夫模型的状态转移矩阵;
所述确定单元,具体用于根据所述第一分布参数和所述第二分布参数确定所述隐马尔可夫模型的释放函数;
所述确定单元,具体用于基于所述状态转移矩阵和所述释放函数对所述模型参数进行配置。
可选的,在本申请一些可能的实现方式中,所述检测单元,具体用于获取预设时间段内所述异常检测中确定的异常时刻;
所述检测单元,具体用于基于所述异常时刻对所述目标项目对应的数据集进行标记,以得到标记数据集;
所述检测单元,具体用于将所述标记数据集进行上报,以确定所述目标项目对应的作弊标识。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的异常数据的检测方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的异常数据的检测方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的异常数据的检测方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围;然后调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;进一步的基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,该目标数据序列基于目标指标统计所得;并根据隐状态确定作用于目标数据序列的数据预测方式;进而基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于采用隐马尔可夫模型得到的隐状态进行自适应拟合来判断各个时刻是否处于异常状态,并对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为异常数据的检测系统运行的网络架构图;
图2为本申请实施例提供的一种异常数据的检测的流程架构图;
图3为本申请实施例提供的一种异常数据的检测方法的流程图;
图4为本申请实施例提供的一种异常数据的检测方法的场景示意图;
图5为本申请实施例提供的另一种异常数据的检测方法的场景示意图;
图6为本申请实施例提供的另一种异常数据的检测方法的场景示意图;
图7为本申请实施例提供的另一种异常数据的检测方法的场景示意图;
图8为本申请实施例提供的另一种异常数据的检测方法的场景示意图;
图9为本申请实施例提供的另一种异常数据的检测方法的场景示意图;
图10为本申请实施例提供的另一种异常数据的检测方法的流程图;
图11为本申请实施例提供的一种异常数据的检测装置的结构示意图;
图12为本申请实施例提供的一种终端设备的结构示意图;
图13为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
本申请实施例提供了一种异常数据的检测方法以及相关装置,可以应用于终端设备中包含异常数据的检测功能的系统或程序中,通过获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围;然后调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;进一步的基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,该目标数据序列基于目标指标统计所得;并根据隐状态确定作用于目标数据序列的数据预测方式;进而基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于采用隐马尔可夫模型得到的隐状态进行自适应拟合来判断各个时刻是否处于异常状态,并对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
时间序列:时间序列是一组按照时间发生先后顺序进行排列的数据点序列,通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年)。
异常检测:异常检测是对不符合预期模式的异常点识别,例如图像中的突然异常凸起或周级别规律的突然消失。
隐马尔可夫模型(Hidden Markov Model,HMM):一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程,在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
应理解,本申请提供的异常数据的检测方法可以应用于终端设备中包含异常数据的检测功能的系统或程序中,例如广告检测应用,具体的,异常数据的检测系统可以运行于如图1所示的网络架构中,如图1所示,是异常数据的检测系统运行的网络架构图,如图可知,异常数据的检测系统可以提供与多个信息源的异常数据的检测过程,即通过终端侧的检测操作对服务器中的流量数据进行异常检测,并返回相应的检测结果;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到异常数据的检测的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述异常数据的检测系统可以运行于个人移动终端,例如:作为广告检测应用这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供异常数据的检测,以得到信息源的异常数据的检测处理结果;具体的异常数据的检测系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
为了维持广告生态,保护广告主利益以维持广告主、流量和平台三方共赢的状态,需要对恶意刷量作弊以获得额外分成的流量进行过滤,随着对抗作弊不断升级,线上积累了许多反作弊策略,但随着时间推移由于各种原因会造成策略一定程度的漏过和误过,因此有了对策略进行监控的需求,以尽快发现策略漏过、误过,即为一种异常检测的过程。
一般,异常检测可以通过对固定指标进行阈值判断确定,例如数据的波动性超过阈值范围。
但是,在海量流量的场景中,阈值判断的过程无法满足所有场景的判断需求,可能出现阈值设置不准确的情况,影响异常判断的准确性。
为了解决上述问题,本申请提出了一种异常数据的检测方法,该方法应用于图2所示的异常数据的检测的流程框架中,如图2所示,为本申请实施例提供的一种异常数据的检测的流程架构图,用户通过中断进行检测操作,从而触发服务器调用目标项目的检测数据,然后根据检测数据的历史序列确定合理波动范围,并根据波动范围确定隐马尔可夫模型参数,然后根据隐马尔可夫模型确定序列隐状态鸡儿根据隐状态自适应切换移动平均和三次方回归,从而实现通过隐马尔可夫模型判断时间序列波动对应隐状态,以隐状态自适应拟合判断时序是否处于异常状态并输出异常时段的算法。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种异常数据的检测装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该异常数据的检测装置通过获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围;然后调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;进一步的基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,该目标数据序列基于目标指标统计所得;并根据隐状态确定作用于目标数据序列的数据预测方式;进而基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于采用隐马尔可夫模型得到的隐状态进行自适应拟合来判断各个时刻是否处于异常状态,并对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
结合上述流程架构,下面将对本申请中异常数据的检测方法进行介绍,请参阅图3,图3为本申请实施例提供的一种异常数据的检测方法的流程图,该管理方法可以是由终端执行的,也可以是由服务器执行的,本申请实施例至少包括以下步骤:
301、获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围。
本实施例中,目标指标即为需要检测的流量项目,例如本实施例可应用于时序指标的异常监控,例如广告业务线的大盘点击数、大盘收入、大盘点击率(CTR)、策略过滤量等。
具体的,历史数据序列可以是本地存储的历史数据解析所得,也可以是云端下载的历史数据,还可以是多个信息源进行整合所得,具体方式因实际场景而定。
在一种可能的场景中,如图4所示图4为本申请实施例提供的一种异常数据的检测方法的场景示意图;图中示出了策略过滤量示例,展现了不同时刻所对应的流量数据,该数据具有连续性。
可以理解的是,对于目标指标进行异常检测,即在目标指标对应的波动曲线中检测存在异常的数据,例如波动异常的数据。例如在图5所示的场景中,图5为本申请实施例提供的另一种异常数据的检测方法的场景示意图;图中x、y分别代表了一个具体反作弊策略在24小时内过量变化,由于外界因素例如作弊量发生变化或内部程序bug等导致框选部分A1策略过滤量造成了较大波动,即框选部分A1为异常检测需要检测得到的部分。
具体的,对于数据波动范围的确定,可以是首先获取目标指标对应的历史数据序列;然后确定历史数据序列中相邻时刻之间的变化率,以作为第一分布参数;并将第一分布参数覆盖范围以外的计算分布作为第二分布参数;进而基于第一分布参数和第二分布参数确定目标指标对应的数据波动范围。
在一种可能的场景中,上述过程即通过历史时间序列数据计算任意时刻与上一时刻变化率Δ=tn-tn-1作为波动值分布p1(第一分布参数),假定Δ满足正态分布,即p1~gaussian(mu1,sigma1)。其参数为均值mu1,方差sigma1,以mu1+3*sigma1作为合理波动区间。在得到p1后,以覆盖p1分布以外面积为目标计算分布p2(第二分布参数)~gaussian(mu2,sigma2),其中:
其中,mu2为第二分布参数的均值;mu1+3*sigma1为合理波动区间,sigma2为覆盖p1分布以外面积为目标的方差。
由于本实施例需要调用隐马尔可夫模型,对于波动范围确定隐马尔可夫模型针对于目标指标的模型参数的过程在步骤302中进行说明。
302、调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数。
本实施例中,为了将隐马尔可夫模型于目标指标相互匹配,需要进行对应的模型参数的配置。
具体的,对于模型参数的配置过程,可以首先根据目标指标中异常时刻的出现频次与正常时刻的出现频次确定隐马尔可夫模型的状态转移矩阵;然后根据第一分布参数和第二分布参数确定隐马尔可夫模型的释放函数;进而基于状态转移矩阵和释放函数对模型参数进行配置。
可以理解的是,本实施例引入隐马尔可夫模型,是由于隐马尔可夫模型假设任意时刻可观测输出都是由不可观测的隐状态决定,以时间序列为例,即任意时刻观测点都是由不可观测的正常、异常状态产生。该模型需要两个参数:状态转移矩阵和释放函数,状态转移矩阵代表了正常、异常发生的频次,由人工经验设定;释放函数则为步骤303计算得到,即释放函数1为p1(第一分布参数),释放函数2为p2(第二分布参数),从而保证了隐马尔可夫模型对于目标指标的有效性。
303、基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态。
本实施例中,目标数据序列基于目标指标统计所得,即在得到隐马尔可夫模型及其参数后,对于任意输入时间序列,可由隐马尔可夫模型的Viterbi算法求解观测序列对应的隐状态,例如表1所示:
表1实际值(观测值)与隐状态的对应关系
由表1数据可见,将隐马尔可夫模型求解隐状态作为正常异常时段的参考,即隐状态为1表示异常时段;隐状态为0表示正常时段,具体的表示方式因实际场景而定。
可以理解的是,Viterbi算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的维特比路径,即隐含状态序列。
304、根据隐状态确定作用于目标数据序列的数据预测方式。
本实施例中,由于监控数据的复杂性和不确定性,普通线性、多次方回归方法很难拟合长期复杂趋势:当模型过复杂时容易过拟合,当模型过简单时候容易欠拟合,很难进行取舍。在本实施例中,采用动态算法的方式,即数据预测方式包括第一算法和第二算法,第一算法用于在异常消退时段中规避第二算法产生的数据异常,这是由于普通移动平均不需要设定太多复杂参数,相较拟合方法能较好拟合并预测复杂监控指标,但移动平均在报出时间段上会存在漏报和误报,故可以采用自适应式的数据预测方式;在一种可能的方式中,第一算法为多元回归算法(例如三元回归算法),可以规避异常消退时段移动平均算法(第二算法)所带来的漏报和误报。
具体的,基于历史时间序列预测下一时刻的预测值,可以采用两种算法:移动平均和三次方回归;即当步骤303得到最近一次隐状态为0即正常状态时,采用移动平均;当步骤303得到最近一次隐状态为1即异常状态,采用三次方回归,并且将使用三次方回归预测数据覆盖原始数据,从而保证预测算法的有效性。
305、基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。
本实施例中,在采用自适应式的数据预测方式得到下一时刻的预测值后,比较预测值与实际值的差异,从而进行异常检测的过程。例如报警条件为算法预测与实际差异大于阈值t,即当满足报警条件是,该时刻即标记为异常。
具体的,对于阈值t的取值,可以是即时设定的阈值,也可以是基于数据波动范围动态设定的,即t=mu1+3*sigma1,其中mu1+3*sigma1为合理波动区间。
具体的,对于隐状态指示当前时刻为异常时刻的场景,可以确定作用于目标数据序列的数据预测方式为三次方回归算法;进而基于历史数据序列采用三次方回归算法预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。其中,三次方回归算法为因变量与一个或多个自变量间多项式的回归分析方法,可以参考如下公式进行:
y=β0+β1x+ε
其中,y为预测值,ε是未观察到的随机误差,其以标量x为条件,均值为零。在该算法中,对于x值的每个单位增加,y的条件期望增加个单位。
为了减小异常数据对后续的预测判断产生影响,故可以采用预测值覆盖异常的实际值,即调用预测值对目标数据序列在下一时刻的实际值进行更新,以得到覆盖值;然后基于覆盖值执行目标数据序列中后续时刻的预测,例如存在时刻1、时刻2和时刻3,时刻2的实际值异常,则采用时刻2的预测值对时刻2的实际值覆盖,在时刻3进行预测的过程中,采用时刻2的预测值进行,从而减小异常数据对数据序列预测的干扰。
另外,对于隐状态指示当前时刻为正常时刻的场景,则确定作用于目标数据序列的数据预测方式为移动平均算法;然后基于历史数据序列采用移动平均算法预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。具体的,移动平均的计算公式如下:
Ft=(At-1+At-2+At-3+…+At-n)/n
其中,Ft表示对下一期的预测值;n表示移动平均的时期个数;At-1表示前期实际值;At-2、At-3和At-n分别表示前两期、前三期直至前n期的实际值。
在一种可能的场景中,对于自适应算法的配置如图6所示,图6为本申请实施例提供的另一种异常数据的检测方法的场景示意图;图中示出了原始数据、移动平均算法处理后的数据以及基于隐马尔可夫自适应处理后的数据曲线,并展示了对应的算法示例,此处不作赘述。
可以理解的是,由于监控数据的复杂性和不确定性,普通线性、多次方回归方法很难拟合长期复杂趋势:当模型过复杂时容易过拟合,当模型过简单时候容易欠拟合,很难进行取舍。普通移动平均不需要设定太多复杂参数,相较拟合方法能较好拟合并预测复杂监控指标,但移动平均在报出时间段上会存在漏报和误报,如图7所示,图7为本申请实施例提供的另一种异常数据的检测方法的场景示意图;即由于异常消退时段对移动平均可能带来的漏报和误报。
而采用本实施例的方式,对于以上数据,基于隐马尔可夫的自适应异常检测算法可以很好的规避异常消退时段普通移动平均所带来的漏报和误报,如图8所示,图8为本申请实施例提供的另一种异常数据的检测方法的场景示意图;图中示出了移动平均和基于隐马尔可夫自适应方法对比,可见异常消退时段普通移动平均所带来的漏报和误报明显减小。
在另一种可能的场景中,采用另一个数据集上测试对比如图9所示,图9为本申请实施例提供的另一种异常数据的检测方法的场景示意图;图中示出了移动平均和基于隐马尔可夫自适应方法对比,可见异常消退时段普通移动平均所带来的漏报和误报明显减小。
结合上述实施例可知,通过获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围;然后调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;进一步的基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,该目标数据序列基于目标指标统计所得;并根据隐状态确定作用于目标数据序列的数据预测方式;进而基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于采用隐马尔可夫模型得到的隐状态进行自适应拟合来判断各个时刻是否处于异常状态,并对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
在一种可能的场景中,在进行异常检测之后,还需要进行作弊标识的调价,以便于相关人员查验,下面对该场景进行说明。请参阅图10,图10为本申请实施例提供的另一种异常数据的检测方法的流程图,本申请实施例至少包括以下步骤:
1001、获取预设时间段内异常检测中确定的异常时刻。
本实施例中,异常时刻的确定参见图3所示实施例步骤301-305所示的过程,此处不作赘述。
可以理解的是,预设时间段可以是相关人员设定的检测周期,也可以根据历史检测记录自动获取的检测周期,还可以是由于特定事件即时触发的检测周期,例如大盘波动超过预设值后获取最近一周(预设时间段)内异常检测的异常时刻,具体方式因实际场景而定,此处不作限定。
1002、基于异常时刻对目标项目对应的数据集进行标记,以得到标记数据集。
本实施例中,由于不同的数据集具有各种的波动特点,例如在广告领域中,可以分别针对策略过滤数、大盘点击数、大盘收入和大盘点击率进行异常检测,并对其中的异常时刻进行标记。
1003、将标记数据集进行上报,以确定目标项目对应的作弊标识。
本实施例中,若步骤1002中的多个标记数据集存在交集,即属于同一客体(广告主),即可对该客体添加作弊标识,以便于相关人员进行审核,并对后续的广告报价进行调整,从而提高了广告推送过程中数据的可信度。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图11,图11为本申请实施例提供的一种异常数据的检测装置的结构示意图,异常数据的检测装置1100包括:
获取单元1101,用于获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围;
确定单元1102,用于调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数;
所述确定单元1102,还用于基于配置所述模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,所述目标数据序列基于所述目标指标统计所得;
所述确定单元1102,还用于根据所述隐状态确定作用于所述目标数据序列的数据预测方式,所述数据预测方式包括第一算法和第二算法,所述第一算法用于在异常消退时段中规避所述第二算法产生的数据异常;
检测单元1103,用于基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述确定单元1102,具体用于若所述隐状态指示当前时刻为异常时刻,则确定作用于所述目标数据序列的数据预测方式为三次方回归算法;
所述检测单元1103,具体用于基于所述历史数据序列采用所述三次方回归算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述检测单元1103,具体用于调用所述预测值对所述目标数据序列在下一时刻的实际值进行更新,以得到覆盖值;
基于所述覆盖值执行所述目标数据序列中后续时刻的预测。
可选的,在本申请一些可能的实现方式中,所述确定单元1102,具体用于若所述隐状态指示当前时刻为正常时刻,则确定作用于所述目标数据序列的数据预测方式为移动平均算法;
所述检测单元1103,具体用于基于所述历史数据序列采用所述移动平均算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
可选的,在本申请一些可能的实现方式中,所述获取单元1101,具体用于获取所述目标指标对应的所述历史数据序列;
所述获取单元1101,具体用于确定所述历史数据序列中相邻时刻之间的变化率,以作为第一分布参数;
所述获取单元1101,具体用于将所述第一分布参数覆盖范围以外的计算分布作为第二分布参数;
所述获取单元1101,具体用于基于所述第一分布参数和所述第二分布参数确定所述目标指标对应的数据波动范围;
所述确定单元1102,具体用于调用所述隐马尔可夫模型;
所述确定单元1102,具体用于根据所述目标指标中异常时刻的出现频次与正常时刻的出现频次确定所述隐马尔可夫模型的状态转移矩阵;
所述确定单元1102,具体用于根据所述第一分布参数和所述第二分布参数确定所述隐马尔可夫模型的释放函数;
所述确定单元1102,具体用于基于所述状态转移矩阵和所述释放函数对所述模型参数进行配置。
可选的,在本申请一些可能的实现方式中,所述检测单元1103,具体用于获取预设时间段内所述异常检测中确定的异常时刻;
所述检测单元1103,具体用于基于所述异常时刻对所述目标项目对应的数据集进行标记,以得到标记数据集;
所述检测单元1103,具体用于将所述标记数据集进行上报,以确定所述目标项目对应的作弊标识。
通过获取目标指标对应的历史数据序列,以确定目标指标对应的数据波动范围;然后调用隐马尔可夫模型,并根据数据波动范围确定隐马尔可夫模型针对于目标指标的模型参数;进一步的基于配置模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,该目标数据序列基于目标指标统计所得;并根据隐状态确定作用于目标数据序列的数据预测方式;进而基于历史数据序列采用数据预测方式预测目标数据序列在下一时刻的预测值,以基于预测值进行异常检测。从而基于隐马尔可夫模型的自适应异常检测的过程,由于采用隐马尔可夫模型得到的隐状态进行自适应拟合来判断各个时刻是否处于异常状态,并对不同状态的时刻采用对应的算法,可以防止数据消退时产生的检测失误,提高异常数据检测的准确性。
本申请实施例还提供了一种终端设备,如图12所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12,手机包括:射频(radio frequency,RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1280处理;另外,将设计上行的数据发送给基站。通常,RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1230可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作,以及在触控面板1231上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1280,并能接收处理器1280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231,输入单元1230还可以包括其他输入设备1232。具体地,其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1241。进一步的,触控面板1231可覆盖显示面板1241,当触控面板1231检测到在其上或附近的触摸操作后,传送给处理器1280以确定触摸事件的类型,随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中,触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1260、扬声器1261,传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号,传输到扬声器1261,由扬声器1261转换为声音信号输出;另一方面,传声器1262将收集的声音信号转换为电信号,由音频电路1260接收后转换为音频数据,再将音频数据输出处理器1280处理后,经RF电路1210以发送给比如另一手机,或者将音频数据输出至存储器1220以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1280可包括一个或多个处理单元;可选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
手机还包括给各个部件供电的电源1290(比如电池),可选的,电源可以通过电源管理系统与处理器1280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1280还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图13,图13是本申请实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图13所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有异常数据的检测指令,当其在计算机上运行时,使得计算机执行如前述图3至图10所示实施例描述的方法中异常数据的检测装置所执行的步骤。
本申请实施例中还提供一种包括异常数据的检测指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图10所示实施例描述的方法中异常数据的检测装置所执行的步骤。
本申请实施例还提供了一种异常数据的检测系统,所述异常数据的检测系统可以包含图11所描述实施例中的异常数据的检测装置,或图12所描述实施例中的终端设备,或者图13所描述的服务器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,异常数据的检测装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种异常数据的检测方法,其特征在于,包括:
获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围;
调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数;
基于配置所述模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,所述目标数据序列基于所述目标指标统计所得;
根据所述隐状态确定作用于所述目标数据序列的数据预测方式,所述数据预测方式包括第一算法和第二算法,所述第一算法用于在异常消退时段中规避所述第二算法产生的数据异常;
基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
2.根据权利要求1所述的方法,其特征在于,所述第一算法为三次方回归算法,所述根据所述隐状态确定作用于所述目标数据序列的数据预测方式,包括:
若所述隐状态指示当前时刻为异常时刻,则确定作用于所述目标数据序列的数据预测方式为所述三次方回归算法;
所述基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测,包括:
基于所述历史数据序列采用所述三次方回归算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
调用所述预测值对所述目标数据序列在下一时刻的实际值进行更新,以得到覆盖值;
基于所述覆盖值执行所述目标数据序列中后续时刻的预测。
4.根据权利要求1所述的方法,其特征在于,所述第二算法为移动平均算法,所述根据所述隐状态确定作用于所述目标数据序列的数据预测方式,包括:
若所述隐状态指示当前时刻为正常时刻,则确定作用于所述目标数据序列的数据预测方式为所述移动平均算法;
所述基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测,包括:
基于所述历史数据序列采用所述移动平均算法预测所述目标数据序列在下一时刻的预测值,以基于所述预测值进行异常检测。
5.根据权利要求1所述的方法,其特征在于,所述获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围,包括:
获取所述目标指标对应的所述历史数据序列;
确定所述历史数据序列中相邻时刻之间的变化率,以作为第一分布参数;
将所述第一分布参数覆盖范围以外的计算分布作为第二分布参数;
基于所述第一分布参数和所述第二分布参数确定所述目标指标对应的数据波动范围;
所述调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数,包括:
调用所述隐马尔可夫模型;
根据所述目标指标中异常时刻的出现频次与正常时刻的出现频次确定所述隐马尔可夫模型的状态转移矩阵;
根据所述第一分布参数和所述第二分布参数确定所述隐马尔可夫模型的释放函数;
基于所述状态转移矩阵和所述释放函数对所述模型参数进行配置。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取预设时间段内所述异常检测中确定的异常时刻;
基于所述异常时刻对所述目标项目对应的数据集进行标记,以得到标记数据集;
将所述标记数据集进行上报,以确定所述目标项目对应的作弊标识。
7.根据权利要求1所述的方法,其特征在于,所述异常数据的检测方法应用于广告异常流量检测,所述目标项目包括策略过滤数、大盘点击数、大盘收入和大盘点击率。
8.一种异常数据的检测装置,其特征在于,包括:
获取单元,用于获取目标指标对应的历史数据序列,以确定所述目标指标对应的数据波动范围;
确定单元,用于调用隐马尔可夫模型,并根据所述数据波动范围确定所述隐马尔可夫模型针对于所述目标指标的模型参数;
所述确定单元,还用于基于配置所述模型参数的隐马尔可夫模型确定目标数据序列对应的隐状态,所述目标数据序列基于所述目标指标统计所得;
所述确定单元,还用于根据所述隐状态确定作用于所述目标数据序列的数据预测方式,所述数据预测方式包括第一算法和第二算法,所述第一算法用于在异常消退时段中规避所述第二算法产生的数据异常;
检测单元,用于基于所述历史数据序列采用所述数据预测方式预测所述目标数据序列在下一时刻的数据值,以基于所述数据值进行异常检测。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的异常数据的检测方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现上述权利要求1至7任一项所述的异常数据的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111187372.6A CN114282169B (zh) | 2021-10-12 | 一种异常数据的检测方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111187372.6A CN114282169B (zh) | 2021-10-12 | 一种异常数据的检测方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114282169A true CN114282169A (zh) | 2022-04-05 |
CN114282169B CN114282169B (zh) | 2024-07-12 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720753A (zh) * | 2023-08-07 | 2023-09-08 | 浙江鹏信信息科技股份有限公司 | 水文数据的处理方法、系统及可读存储介质 |
CN117054893A (zh) * | 2023-10-12 | 2023-11-14 | 宁德时代新能源科技股份有限公司 | 电池容量预测模型的训练方法、电池容量预测方法及装置 |
CN117896181A (zh) * | 2024-03-14 | 2024-04-16 | 山东云天安全技术有限公司 | 基于hmm模型的异常数据确定方法、装置、介质和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413443A (zh) * | 2013-07-03 | 2013-11-27 | 太原理工大学 | 基于隐马尔科夫模型的短时交通流状态预测方法 |
CN108376301A (zh) * | 2018-04-03 | 2018-08-07 | 平安科技(深圳)有限公司 | 股票走势预测装置、方法及可读存储介质 |
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
CN111694879A (zh) * | 2020-05-22 | 2020-09-22 | 北京科技大学 | 一种多元时间序列异常模式预测方法及数据采集监控装置 |
US20210014201A1 (en) * | 2015-10-28 | 2021-01-14 | Qomplx, Inc. | Geolocation-aware, cyber-enabled inventory and asset management system with automated state prediction capability |
CN112988527A (zh) * | 2019-12-13 | 2021-06-18 | 中国电信股份有限公司 | Gpu管理平台异常检测方法、装置以及存储介质 |
WO2021179715A1 (zh) * | 2020-10-21 | 2021-09-16 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413443A (zh) * | 2013-07-03 | 2013-11-27 | 太原理工大学 | 基于隐马尔科夫模型的短时交通流状态预测方法 |
US20210014201A1 (en) * | 2015-10-28 | 2021-01-14 | Qomplx, Inc. | Geolocation-aware, cyber-enabled inventory and asset management system with automated state prediction capability |
CN108376301A (zh) * | 2018-04-03 | 2018-08-07 | 平安科技(深圳)有限公司 | 股票走势预测装置、方法及可读存储介质 |
CN110097193A (zh) * | 2019-04-28 | 2019-08-06 | 第四范式(北京)技术有限公司 | 训练模型的方法及系统和预测序列数据的方法及系统 |
CN112988527A (zh) * | 2019-12-13 | 2021-06-18 | 中国电信股份有限公司 | Gpu管理平台异常检测方法、装置以及存储介质 |
CN111694879A (zh) * | 2020-05-22 | 2020-09-22 | 北京科技大学 | 一种多元时间序列异常模式预测方法及数据采集监控装置 |
WO2021179715A1 (zh) * | 2020-10-21 | 2021-09-16 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
张绪冰: "隐马尔可夫模型的道路拥堵时间预测", 计算机工程与应用, 21 July 2021 (2021-07-21), pages 312 - 318 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720753A (zh) * | 2023-08-07 | 2023-09-08 | 浙江鹏信信息科技股份有限公司 | 水文数据的处理方法、系统及可读存储介质 |
CN116720753B (zh) * | 2023-08-07 | 2023-10-31 | 浙江鹏信信息科技股份有限公司 | 水文数据的处理方法、系统及可读存储介质 |
CN117054893A (zh) * | 2023-10-12 | 2023-11-14 | 宁德时代新能源科技股份有限公司 | 电池容量预测模型的训练方法、电池容量预测方法及装置 |
CN117054893B (zh) * | 2023-10-12 | 2024-03-29 | 宁德时代新能源科技股份有限公司 | 电池容量预测模型的训练方法、电池容量预测方法及装置 |
CN117896181A (zh) * | 2024-03-14 | 2024-04-16 | 山东云天安全技术有限公司 | 基于hmm模型的异常数据确定方法、装置、介质和设备 |
CN117896181B (zh) * | 2024-03-14 | 2024-05-31 | 山东云天安全技术有限公司 | 基于hmm模型的异常数据确定方法、装置、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368400B (zh) | Cpu监测方法、装置、计算机可读存储介质和移动终端 | |
CN110334124B (zh) | 压缩算法选择方法、装置以及设备 | |
CN110995810B (zh) | 一种基于人工智能的对象识别方法和相关装置 | |
CN107222914B (zh) | 应用控制方法及相关产品 | |
CN107608861A (zh) | 散热控制方法及装置 | |
CN111913848A (zh) | 一种数据监测分析方法及相关设备 | |
CN105447583A (zh) | 一种预测用户离网的方法及装置 | |
CN108900386A (zh) | 告警信息的产生方法、装置及电子设备 | |
CN110798511B (zh) | 目标app的日活跃用户数量预测方法及计算机设备 | |
CN112711516B (zh) | 一种数据处理方法和相关装置 | |
CN110796552A (zh) | 一种风险提示方法及装置 | |
CN112131093A (zh) | 一种基于混沌测试的测试用例自动生成方法和装置 | |
CN111265881B (zh) | 一种模型训练方法、内容生成方法以及相关装置 | |
CN106484688B (zh) | 一种数据处理方法及系统 | |
CN116468382A (zh) | 一种rpa机器人流程管理方法、装置、设备及存储介质 | |
CN111314177A (zh) | 一种基于无线信号的作息时段识别方法以及相关装置 | |
CN114282169B (zh) | 一种异常数据的检测方法以及相关装置 | |
CN114282169A (zh) | 一种异常数据的检测方法以及相关装置 | |
CN117520907A (zh) | 一种异常数据的检测方法、装置以及存储介质 | |
CN107390857A (zh) | 一种温控的方法和设备以及移动终端 | |
CN109388487B (zh) | 应用程序处理方法和装置、电子设备、计算机可读存储介质 | |
CN112053216A (zh) | 一种金融产品的风险管理方法以及相关装置 | |
CN106896896B (zh) | 省电方法、装置及电子设备 | |
CN111818548A (zh) | 一种数据的处理方法、装置及设备 | |
CN117692898B (zh) | 具有风险自动识别的监督预警方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |