CN106156470B - 一种时间序列异常检测标注方法及系统 - Google Patents
一种时间序列异常检测标注方法及系统 Download PDFInfo
- Publication number
- CN106156470B CN106156470B CN201510180528.6A CN201510180528A CN106156470B CN 106156470 B CN106156470 B CN 106156470B CN 201510180528 A CN201510180528 A CN 201510180528A CN 106156470 B CN106156470 B CN 106156470B
- Authority
- CN
- China
- Prior art keywords
- labeling
- abnormal
- party
- weight
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 426
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000002159 abnormal effect Effects 0.000 claims abstract description 362
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000005856 abnormality Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013215 result calculation Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了时间序列异常检测标注方法,包括:获取多个不同标注方输入的标注时间序列异常点的标注信息;根据各个标注方的标注权重以及标注信息,计算得出异常结果信息,异常结果信息用于指示被标注的各个时间序列异常点是否为异常;根据异常结果信息调整各个标注方的标注权重后,返回执行根据各个标注方的标注权重以及标注信息,计算得出异常结果信息的步骤,直到最近的两个异常结果信息一致时,输出最近的异常结果信息。采用本发明,解决了现有技术中仅仅是从数值上反应时间序列偏离某种趋势,很难与业务关联的技术问题,并提高标注异常系统的准确性。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种时间序列异常检测标注方法及系统。
背景技术
时间序列预测分析技术是基于与时间顺序相关联的有序观测数据集,利用随机过程理论和数理统计学方法,研究所述数据集所遵从的统计规律,从而推测数据发展趋势指导解决实际问题。科学正确地对各种实际时间序列进行预测分析可产生巨大的经济效益和与社会效益,时间序列预测分析技术已广泛应用到工业、地址、生态、经济、气象、医学等领域。
现有的时间序列异常检测中,往往是根据时间序列值偏离“正常”(假设为正常)序列的程度,再利用后验的效果评估,确定一个异常阈值实现异常检测。然而,异常阈值的设定仅仅是从数值上反应时间序列偏离某种趋势,很难与业务关联。
实际上,时间序列的异常检测的目的是需要反应业务的非正常的时间点,用于对出现的异常进行确认和处理。如何实现能准确反应业务的非正常时间点的异常检测,是当前人们研究的重点问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种时间序列异常检测标注方法及系统,实现能反应业务的非正常时间点的异常检测,并且提高了标注异常系统的准确度。
为了解决上述技术问题,本发明实施例第一方面公开了一种时间序列异常检测标注方法,包括
获取多个不同标注方输入的标注时间序列异常点的标注信息;
根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
根据所述异常结果信息调整所述各个标注方的标注权重后,返回执行所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息的步骤,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息。
结合第一方面,在第一种可能的实现方式中,所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息包括:
针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率包括:
根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
结合第一方面,在第三种可能的实现方式中,所述根据所述异常结果信息调整所述各个标注方的标注权重包括:
将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重。
结合第一方面,在第四种可能的实现方式中,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
结合第一方面,或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,或者第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述获取多个不同标注方输入的标注时间序列异常点的标注信息之后,所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,还包括:
根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;当判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息包括:根据列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
本发明实施例第二方面公开了一种时间序列异常检测标注系统,包括:
标注信息获取模块,用于获取多个不同标注方输入的标注时间序列异常点的标注信息;
异常结果计算模块,用于根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
标注权重调整模块,用于根据所述异常结果信息调整所述各个标注方的标注权重后,触发所述异常结果计算模块重新执行操作,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息。
结合第二方面,在第一种可能的实现方式中,所述异常结果计算模块包括:
概率计算单元,用于针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
异常结果判断单元,用于当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述概率计算单元包括:
第一相加单元,用于根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;
第二相加单元,用于根据所述标注信息,将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
结合第二方面,在第三种可能的实现方式中,所述标注权重调整模块包括:
调整权重单元,用于将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重;
触发输出单元,用于当所述调整权重单元对各个标注方的标注权重调整之后,触发所述异常结果计算模块重新执行操作,将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重。
结合第二方面,在第四种可能的实现方式中,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
结合第二方面,或者第二方面的第一种可能的实现方式,或者第二方面的第二种可能的实现方式,或者第二方面的第三种可能的实现方式,或者第二方面的第四种可能的实现方式,在第五种可能的实现方式中,还包括:
阈值判断模块,用于在所述标注信息获取模块获取多个不同标注方输入的标注时间序列异常点的标注信息之后,所述异常结果计算模块根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;
权重范围列入模块,用于当所述阈值判断模块的判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
所述异常结果计算模块具体用于根据所述权重范围列入模块列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
本发明实施例第三方面公开了一种计算机存储介质,所述计算机存储介质存储有程序,所述程序执行时包括本发明实施例第一方面、或者第一方面的第一种可能的实现方式,或者第一方面的第二种可能的实现方式,或者第一方面的第三种可能的实现方式,或者第一方面的第四种可能的实现方式,或者第一方面的第五种可能的实现方式中的时间序列异常检测标注方法的全部步骤。
实施本发明实施例,通过获取多个不同标注方输入的标注时间序列异常点的标注信息,从而可以利用与业务相关的多个不同用户对同一事物的认定来进行时间序列异常点的标注,实现了通过人计算的方式来完成计算机无法实现或很难实现的事情,能反应业务的非正常时间点的异常检测,解决了现有技术中仅仅是从数值上反应时间序列偏离某种趋势,很难与业务关联的技术问题;并且通过可信计算(truth mining)的方式调整标注权重,从而对标注异常点进行确定,使得标注异常系统的异常算法不断学习和迭代,从而提高标注异常系统的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的时间序列异常检测标注方法的流程示意图;
图2是本发明提供的时间序列异常检测标注方法的另一实施例的流程示意图;
图3是本发明实施例提供的时间序列的示意图;
图4是本发明提供的时间序列异常检测标注系统的结构示意图;
图5是本发明实施例提供的异常结果计算模块的结构示意图;
图6是本发明实施例提供的概率计算单元的结构示意图;
图7是本发明实施例提供的标注权重调整模块的结构示意图;
图8是本发明提供的时间序列异常检测标注系统的另一实施例的结构示意图;
图9是本发明提供的时间序列异常检测标注系统的另一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例提供的时间序列异常检测标注方法的流程示意图,该方法包括:
步骤S100:获取多个不同标注方输入的标注时间序列异常点的标注信息;
具体地,本发明实施例中的多个不同标注方可以为与业务相关的用户或者使用时间序列异常检测标注系统的用户,不同的标注方可以根据时间业务经验或者业务特征,针对输出的时间序列标注自己认为是异常的时间点,那么该时间序列异常检测标注系统即可获取到这些标注信息。
可理解的是,本发明不同于传统意义上的专家系统,时间序列异常检测标注用户不需要具备很强的专业知识,任何相关用户甚至任何用户均可参与标注;对于时间序列,异常点常常可能与业务活动相关,或者突发事物相关。例如:在第三方交易的时间序列中的支付笔数的时间序列,突然的序列值突然增大的异常可能是由于某些营销活动引起的,而突然下降的异常可能是活动结束或者系统出现异常。当活动范围较小或者活动效果不是非常显著,或者系统异常导致的影响范围不是很大时,现有技术中使用一般的异常检测算法并不能很好的解决问题,但是系统运维人员或者营销人员,或者对该业务比较了解的人员能快速确定时间序列的异常点。因此,本发明实施例通过人计算(human computation)的方式获取多个不同标注方输入的标注时间序列异常点的标注信息,利用大部分用户对同一事物的评价来帮助系统决策,使用用户的‘计算’能力比使用计算机的计算能力更有效,完成了计算机无法实现或很难实现的事情,能反应业务的非正常时间点的异常检测。
步骤S102:根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
具体地,本发明实施例中的各个标注方都对应有各自的标注权重,本发明实施例中的标注权重包括但不限于为0到1,本发明各个实施例以0到1为例进行说明;在第一次对某时间序列进行异常点标注时,可以设置各个标注方对应各自的标注权重为1,并可以进行标注权重的归一化,即调整各个标注方的标注权重进行修改,如可以根据该次进行异常点标注的标注方的数量N,将每个标注方的标注权重平均分,修改为1/N;当然可以修改为其它数值,只要所有标注方的标注权重相加为1即可。
根据各个标注方的标注权重以及标注信息,可以计算出各个被标注的时间序列异常点的异常比重或者异常概率,例如本次进行异常点标注的标注方的数量3,每个标注方的标注权重为1/3,那么针对被标注的时间序列xk,若被标注为异常点的个数为2个,那么异常比重或者异常概率为2/3,即非异常比重或者非异常概率为1/3,那么可以通过预先设定计算规则,当异常比重或异常概率达到某阈值,或者异常比重或异常概率大于费异常比重或非异常概率,等等,那么异常结果信息指示该被标注的时间序列异常点为异常,否则异常结果信息指示该被标注的时间序列异常点为非异常。
需要说明的是,可以针对每个被标注的时间序列异常点依次进行计算或同时并行计算多个别标注的时间序列异常点,直到所有被标注的时间序列异常点都计算完毕,即可生成异常结果信息。
步骤S104:根据所述异常结果信息调整所述各个标注方的标注权重后,返回执行所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息的步骤,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息。
具体地,可以根据本次的异常结果信息评估本次标注时标注方的标注正确率,将标注正确率高的标注权重调整为大于标注正确率低的标注权重,可以按标注正确率的比例进行标注权重的调整,或者按照预设的增加或减少的幅度进行标注权重的调整,并在调整后返回步骤S102进行重新计算,可理解的是,该重新计算是根据调整后的各个标注方的标注权重来进行计算,从而得出最近的异常结果信息,并将最近的异常结果信息与上一次的结果异常信息进行比较(即将最近的两个异常结果信息进行比较),若比较一致,那么输出最近的异常结果信息,否则继续根据最近的异常结果信息调整各个标注方的标注权重,然后再返回步骤S102进行重新计算,直到最近的两个异常结果信息一致时,输出最近的异常结果信息。
进一步地,可以将根据标注结果信息累计标注方标注正确的异常点的数量,除以该标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的该标注方的标注权重。具体地,需要调整每个标注方对应的标注权重,其中针对一个标注方,可以根据标注结果信息累计该标注方标注正确的异常点的数量,假如为10,该标注方标注过的所有异常点的数量为15,当前各个标注方的权重之和为1,那么调整后的该标注方的标注权重为2/3。
实施本发明实施例,通过获取多个不同标注方输入的标注时间序列异常点的标注信息,从而可以利用与业务相关的多个不同用户对同一事物的认定来进行时间序列异常点的标注,实现了通过人计算的方式来完成计算机无法实现或很难实现的事情,能反应业务的非正常时间点的异常检测,解决了现有技术中仅仅是从数值上反应时间序列偏离某种趋势,很难与业务关联的技术问题;并且通过可信计算(truth mining)的方式调整标注权重,从而对标注异常点进行确定,使得标注异常系统的异常算法不断学习和迭代,从而提高标注异常系统的准确性。
进一步地,上述步骤S102中,具体可以针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。下面结合图2示出的本发明提供的时间序列异常检测标注方法的另一实施例的流程示意图,进一步说明本发明的时间序列异常检测标注的方法,该方法包括:
步骤S200:获取多个不同标注方输入的标注时间序列异常点的标注信息;
具体地,可以参考上述图1实施例中的步骤S100,这里不再赘述。
步骤S202:根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;
具体地,本发明实施例还可以考虑每次每个标注方标注的异常点个数或数量,可以设定当该次标注中标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值达到预设阈值,比如预设阈值为0.3或0.25等,在本次标注中才将该标注方列入标注权重范围,即将该标注点的标注信息纳入异常结果的计算范围,否则,不将该标注方列入标注权重范围。
步骤S204:检测是否所有标注方都判断完毕;
具体地,当检测结果为是时,则执行步骤S206,否则继续执行步骤S202。
步骤S206:根据列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息;
具体地,针对列入标注权重范围的一个被标注的时间序列异常点,根据列入标注权重范围的各个标注方的标注权重以及标注信息,计算得出该被标注的时间序列异常点为异常的概率和非异常的概率;当该异常的概率大于该非异常的概率时,判断出该被标注的时间序列异常点为异常;当该异常的概率小于该非异常的概率时,判断出该被标注的时间序列异常点为非异常。例如本次列入标注权重范围的进行异常点标注的标注方的数量3,这3个标注方的标注权重分别为0.2、0.3和0.5,那么针对被标注的时间序列异常点xk,若标注权重为0.2和0.5的标注方标注其异常,标注权重为0.3的标注方标注其非异常,那么计算得出该被标注的时间序列异常点xk的异常概率0.7,即非异常概率为0.3,判断出该被标注的时间序列异常点xk为异常。
需要说明的是,可以根据标注信息,将标注为异常的所有标注方对应的权重相加,得出该被标注的时间序列异常点为异常的概率;将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。本发明实施例中的列入标注权重范围的所有标注方的权重之和可以小于、大于或等于1,本发明不作限定;或者还可以对列入标注权重范围的所有标注方的权重进行归一化,使权重之和等于1。
步骤S208:检测是否列入标注权重范围的所有标注方都计算完毕;
具体地,当检测结果为是时,则执行步骤S210,否则继续执行步骤S206。
步骤S210:判断最近的异常结果信息是否与上一次的异常结果信息一致;
具体地,当判断结果为是时,则执行步骤S214,否则执行步骤S212;
步骤S212:根据最近的异常结果信息调整所述各个标注方的标注权重;
具体地,可以参考上述图1实施例中的步骤S104,这里不再赘述;
步骤S214:输出最近的所述异常结果信息。
再进一步地,在步骤S206中,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;且该n个标注方和m个标注方都被列入标注权重范围,那么新增的标注方的标注权重可以设为1/(n+m);历史的标注方的标注权重为1/(n+m)乘以该历史的标注方当前对应的标注权重。可理解的是,n为本次标注时被列入标注权重范围的标注方个数减去本次没有被列入标注权重范围的标注方个数的值,本发明实施例中的n可以为正整数或负整数,当n为正整数时,表明本次标注时被列入标注权重范围的标注方个数大于本次没有被列入标注权重范围的标注方个数;而当n为负整数时,表明本次标注时被列入标注权重范围的标注方个数小于本次没有被列入标注权重范围的标注方个数。需要说明的是,本次没有被列入标注权重范围的标注方个数为从历史被列入标注权重范围的标注方中移出的标注方个数。
下面将通过一个实例来详细说明本发明的时间序列异常检测标注方法,如图3示出的本发明实施例提供的时间序列的示意图,有时间序列Xt={x1,x2,x3,x4,x5,…x14},假设本次异常点标注有三个不同的标注方,分别为U1、U2和U3,他们输入的标注信息分别为:标注方U1标注{x3,x6,x7,x10}为异常,标注方U2标注{x6,x10}为异常,以及标注方U3标注{x6,x10,x12}为异常,那么系统可以通过下表来记录或存储每个标注方的标注信息:
标注方 | 序列 | 异常点 | 异常值 |
U<sub>1</sub> | X<sub>t</sub> | x<sub>3</sub> | 1 |
U<sub>1</sub> | X<sub>t</sub> | x<sub>6</sub> | 1 |
U<sub>1</sub> | X<sub>t</sub> | x<sub>7</sub> | 1 |
U<sub>1</sub> | X<sub>t</sub> | x<sub>10</sub> | 1 |
U<sub>2</sub> | X<sub>t</sub> | x<sub>6</sub> | 1 |
U<sub>2</sub> | X<sub>t</sub> | x<sub>10</sub> | 1 |
U<sub>3</sub> | X<sub>t</sub> | x<sub>6</sub> | 1 |
U<sub>3</sub> | X<sub>t</sub> | x<sub>10</sub> | 1 |
U<sub>3</sub> | X<sub>t</sub> | x<sub>12</sub> | 1 |
通过公式1:
可以分别计算各个标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;其中,ni为标注方i标注的异常点个数,N为当前所有标注方标注的所有异常点个数,δ为预设阈值,假设δ为0.3;从上表中可以看出当前所有标注方标注的所有异常点个数N为5,标注方U1的比值为4/5,标注方U2的比值为2/5,标注方U1的比值为3/5,均达到预设阈值0.3那么,标注方U1、U2和U3都列入标注权重范围。
通过公式2:
可以根据列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息;其中,xi为时间序列被标注为异常点的第i个点,j为标注方j的标注,为时间序列的第i个点为异常的概率,λj为标注方j的标注权重,表示到xi的距离;初始时,即假设本次标注为对该时间序列的第一次标注,那么标注方的初始标注权重可以设为λ1=λ2=λ3=1,且可以通过公式3:
进行归一化处理,使得所有标注方的权重之和为1,那么归一化后的标注方的权重
为那么公式2表示为使得最大时的取值,即,对于
被标注异常的时间序列的第i个点,所有标注方标注的使得该异常点与‘真实的异常’计算
的概率最大。
公式2的求解即为最优化问题,可分别通过如下的公式4到公式5求解得出:
公式4可通过以下方法求解:
对所有的异常点按照标注方的标准确定是否为异常,即:
即根据所有的标注方的标注异常,计算异常点的异常概率,使得异常点偏离真实‘异常最小’。也就是说,选择大多数标注方认为是异常的异常点。从而计算得到如下表的异常结果信息:
假设1表示该序列点被标注为异常点,0表示该序列点没有被标注为异常点;那么可理解的是,公式1中0到0以及1到1的距离可以设定为1,0到1或1到0的距离可以设定为0。计算得出异常结果信息为只有序列点x6和x10为异常。
根据确定的异常更新用户的标注权重,即:
使用根据异常点的判断,更新用户的标注权重,使用户的异常的误差最小。
求解的更新标注权重方法为:
可以进行归一化处理后,得出:
根据调整后的各个标注方的标注权重,重新计算异常结果信息如下:
判断最近的异常结果信息与上一次的异常结果信息一致,那么输出最近的异常结果信息。
例如,对上述例子中的异常点,如果标注方U4标注了x10为异常,预设阈值设定为0.3,则标注方U4标注k=0.2<0.3,则标注方U4不列入标注权重范围,即不计入异常标注的权重标注方中。
又如,在下一次计算{x15,x16,……,x30}的标注中,新增标注方U5和U6,历史标注方中U1、U2和U3也全部参与标注,则可以按照公式8和公式9:
其中,n为新增的标注方数量,m为历史的标注方数量,对于历史标注方的标注权重可以通过公式8进行计算,对于新增标注方的标注权重可以通过公式9进行计算,例如:
可理解的是,通过本发明实施例中的可信计算,标注方标注的次数越多,准确率越大,则可信度越高,以后的标注可能为准确的标注的可能性越大;反之则可信度越低,以后的标注为准确的标注的可能性越小。即标注方标注越准确,其计算越‘可信’,否则,越‘不可信’。
为了便于更好地实施本发明实施例的上述方案,本发明还对应提供了一种时间序列异常检测标注系统,如图4示出的本发明提供的时间序列异常检测标注系统的结构示意图,时间序列异常检测标注系统40包括:标注信息获取模块400、异常结果计算模块402和标注权重调整模块404,其中
标注信息获取模块400用于获取多个不同标注方输入的标注时间序列异常点的标注信息;
异常结果计算模块402用于根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
标注权重调整模块404用于根据所述异常结果信息调整所述各个标注方的标注权重后,触发异常结果计算模块402重新执行操作,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息。
具体地,如图5示出的本发明实施例提供的异常结果计算模块的结构示意图,异常结果计算模块402可以包括:概率计算单元4020和异常结果判断单元4022,其中
概率计算单元4020用于针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
异常结果判断单元4022用于当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
进一步地,如图6示出的本发明实施例提供的概率计算单元的结构示意图,概率计算单元4020可以包括:第一相加单元40200和第二相加单元40202,其中
第一相加单元40200用于根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;
第二相加单元40202用于根据所述标注信息,将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
再进一步地,如图7示出的本发明实施例提供的标注权重调整模块的结构示意图,标注权重调整模块404可以包括:调整权重单元4040和触发输出单元4042,其中
调整权重单元4040用于将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重;
触发输出单元4042用于当调整权重单元4040对各个标注方的标注权重调整之后,触发异常结果计算模块402重新执行操作,将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重。
再进一步地,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为大于1的正整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
再进一步地,如图8示出的本发明提供的时间序列异常检测标注系统的另一实施例的结构示意图,时间序列异常检测标注系统40包括标注信息获取模块400、异常结果计算模块402和标注权重调整模块404外,还可以包括:阈值判断模块406和权重范围列入模块408,其中
阈值判断模块406用于在标注信息获取模块400获取多个不同标注方输入的标注时间序列异常点的标注信息之后,异常结果计算模块402根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;
权重范围列入模块408用于当阈值判断模块406的判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
异常结果计算模块402具体用于根据所述权重范围列入模块列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
请参阅图9,图9是本发明提供的时间序列异常检测标注系统的另一实施例的结构示意图。其中,如图9所示,时间序列异常检测标注系统90可以包括:至少一个处理器901,例如CPU,至少一个网络接口904,用户接口903,存储器905,至少一个通信总线902以及显示屏906。其中,通信总线902用于实现这些组件之间的连接通信。其中,用户接口903,可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储系统。如图9所示,作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及时间序列异常检测标注程序。
在图9所示的时间序列异常检测标注系统900中处理器901可以用于调用存储器905中存储的时间序列异常检测标注程序,并执行以下操作:
获取多个不同标注方输入的标注时间序列异常点的标注信息;
根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
根据所述异常结果信息调整所述各个标注方的标注权重后,返回执行所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息的步骤,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息。
具体地,处理器901根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息可以包括:
针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
进一步地,处理器901根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率可以包括:
根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
进一步地,处理器901根据所述异常结果信息调整所述各个标注方的标注权重可以包括:
将根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,得到调整后的标注方的标注权重。
进一步地,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
进一步地,处理器901获取多个不同标注方输入的标注时间序列异常点的标注信息之后,所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,还可以执行:
根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;当判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息包括:根据列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
需要说明的是,本发明实施例中的时间序列异常检测标注系统40或时间序列异常检测标注系统90可以为个人计算机或移动智能终端、平板电脑等电子终端;时间序列异常检测标注系统40或时间序列异常检测标注系统90中各功能模块的功能可根据上述方法实施例中的方法具体实现,这里不再赘述。
综上所述,实施本发明实施例,通过获取多个不同标注方输入的标注时间序列异常点的标注信息,从而可以利用与业务相关的多个不同用户对同一事物的认定来进行时间序列异常点的标注,实现了通过人计算的方式来完成计算机无法实现或很难实现的事情,能反应业务的非正常时间点的异常检测,解决了现有技术中仅仅是从数值上反应时间序列偏离某种趋势,很难与业务关联的技术问题;并且通过可信计算(truth mining)的方式调整标注权重,从而对标注异常点进行确定,使得标注异常系统的异常算法不断学习和迭代,从而提高标注异常系统的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种时间序列异常检测标注方法,其特征在于,包括:
获取多个不同标注方输入的标注时间序列异常点的标注信息;
根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
根据所述异常结果信息调整所述各个标注方的标注权重后,返回执行所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息的步骤,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息,所述调整后的标注方的标注权重为根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,并对结果进行归一化处理所得到的权重;
其中,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
2.如权利要求1所述的方法,其特征在于,所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息包括:
针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
3.如权利要求2所述的方法,其特征在于,所述根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率包括:
根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
4.如权利要求1-3任一项所述的方法,其特征在于,所述获取多个不同标注方输入的标注时间序列异常点的标注信息之后,所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,还包括:
根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;当判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
所述根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息包括:根据列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
5.一种时间序列异常检测标注系统,其特征在于,包括:
标注信息获取模块,用于获取多个不同标注方输入的标注时间序列异常点的标注信息;
异常结果计算模块,用于根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息,所述异常结果信息用于指示被标注的各个时间序列异常点是否为异常;
标注权重调整模块,用于根据所述异常结果信息调整所述各个标注方的标注权重后,触发所述异常结果计算模块重新执行操作,直到最近的两个异常结果信息一致时,输出最近的所述异常结果信息,所述调整后的标注方的标注权重为根据标注结果信息累计标注方标注正确的异常点的数量,除以所述标注方标注过的所有异常点的数量以及当前各个标识方的权重之和,并对结果进行归一化处理所得到的权重;
其中,当本次获取的标注方输入的标注信息中,新增的标注方数量为n,历史的标注方数量为m时,其中n和m为整数;
所述新增的标注方的标注权重为1/(n+m);
所述历史的标注方的标注权重为1/(n+m)乘以所述历史的标注方当前对应的标注权重。
6.如权利要求5所述的系统,其特征在于,所述异常结果计算模块包括:
概率计算单元,用于针对一个被标注的时间序列异常点,根据各个标注方的标注权重以及所述标注信息,计算得出所述被标注的时间序列异常点为异常的概率和非异常的概率;
异常结果判断单元,用于当所述异常的概率大于所述非异常的概率时,判断出所述被标注的时间序列异常点为异常;当所述异常的概率小于所述非异常的概率时,判断出所述被标注的时间序列异常点为非异常。
7.如权利要求6所述的系统,其特征在于,所述概率计算单元包括:
第一相加单元,用于根据所述标注信息,将标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为异常的概率;
第二相加单元,用于根据所述标注信息,将没有标注为异常的所有标注方对应的权重相加,得出所述被标注的时间序列异常点为非异常的概率。
8.如权利要求5-7任一项所述的系统,其特征在于,还包括:
阈值判断模块,用于在所述标注信息获取模块获取多个不同标注方输入的标注时间序列异常点的标注信息之后,所述异常结果计算模块根据各个标注方的标注权重以及所述标注信息,计算得出异常结果信息之前,根据所述标注信息判断所述标注方标注的异常点个数与当前所有标注方标注的所有异常点个数的比值是否达到预设阈值;
权重范围列入模块,用于当所述阈值判断模块的判断结果为是时,则将所述标注方列入标注权重范围,否则,不将所述标注方列入标注权重范围;
所述异常结果计算模块具体用于根据所述权重范围列入模块列入标注权重范围的各个标注方的标注权重以及所述标注信息,计算得出异常结果信息。
9.一种时间序列异常检测标注系统,其特征在于,包括处理器、存储器、网络接口;
所述处理器分别与所述存储器和所述网络接口相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-4任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510180528.6A CN106156470B (zh) | 2015-04-16 | 2015-04-16 | 一种时间序列异常检测标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510180528.6A CN106156470B (zh) | 2015-04-16 | 2015-04-16 | 一种时间序列异常检测标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156470A CN106156470A (zh) | 2016-11-23 |
CN106156470B true CN106156470B (zh) | 2020-10-23 |
Family
ID=58058028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510180528.6A Active CN106156470B (zh) | 2015-04-16 | 2015-04-16 | 一种时间序列异常检测标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156470B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681542A (zh) * | 2018-02-12 | 2018-10-19 | 阿里巴巴集团控股有限公司 | 一种异常检测的方法及装置 |
CN113127635B (zh) * | 2019-12-31 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及系统,存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101057781A (zh) * | 2006-04-17 | 2007-10-24 | 通用电气公司 | 用于分析和编辑ecg形态和时间序列的方法和设备 |
CN102651093A (zh) * | 2012-03-31 | 2012-08-29 | 上海海洋大学 | 一种基于时间序列异常检测技术的海洋信息管理系统 |
CN102779161A (zh) * | 2012-06-14 | 2012-11-14 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN102881282A (zh) * | 2011-07-15 | 2013-01-16 | 富士通株式会社 | 一种获取韵律边界信息的方法及系统 |
CN102945320A (zh) * | 2012-10-29 | 2013-02-27 | 河海大学 | 一种时间序列数据异常检测方法与装置 |
CN103324620A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种对标注结果进行纠偏的方法和装置 |
CN103561418A (zh) * | 2013-11-07 | 2014-02-05 | 东南大学 | 基于时间序列的异常检测方法 |
CN104331787A (zh) * | 2014-12-02 | 2015-02-04 | 北方工业大学 | 紧急事件应急方法和应急系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9075713B2 (en) * | 2012-05-24 | 2015-07-07 | Mitsubishi Electric Research Laboratories, Inc. | Method for detecting anomalies in multivariate time series data |
-
2015
- 2015-04-16 CN CN201510180528.6A patent/CN106156470B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101057781A (zh) * | 2006-04-17 | 2007-10-24 | 通用电气公司 | 用于分析和编辑ecg形态和时间序列的方法和设备 |
CN102881282A (zh) * | 2011-07-15 | 2013-01-16 | 富士通株式会社 | 一种获取韵律边界信息的方法及系统 |
CN103324620A (zh) * | 2012-03-20 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种对标注结果进行纠偏的方法和装置 |
CN102651093A (zh) * | 2012-03-31 | 2012-08-29 | 上海海洋大学 | 一种基于时间序列异常检测技术的海洋信息管理系统 |
CN102779161A (zh) * | 2012-06-14 | 2012-11-14 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN102945320A (zh) * | 2012-10-29 | 2013-02-27 | 河海大学 | 一种时间序列数据异常检测方法与装置 |
CN103561418A (zh) * | 2013-11-07 | 2014-02-05 | 东南大学 | 基于时间序列的异常检测方法 |
CN104331787A (zh) * | 2014-12-02 | 2015-02-04 | 北方工业大学 | 紧急事件应急方法和应急系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106156470A (zh) | 2016-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020207214A1 (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111064614B (zh) | 一种故障根因定位方法、装置、设备及存储介质 | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN111314173B (zh) | 监控信息异常的定位方法、装置、计算机设备及存储介质 | |
US20180006900A1 (en) | Predictive anomaly detection in communication systems | |
CN112231174A (zh) | 异常告警方法、装置、设备及存储介质 | |
US10346758B2 (en) | System analysis device and system analysis method | |
CN113434859A (zh) | 入侵检测方法、装置、设备及存储介质 | |
CN107679734A (zh) | 一种用于无标签数据分类预测的方法和系统 | |
CN113312578B (zh) | 一种数据指标的波动归因方法、装置、设备、及介质 | |
CN107958297B (zh) | 一种产品需求预测方法及产品需求预测装置 | |
TW202016783A (zh) | 行為標記模型訓練系統及方法 | |
CN111178537B (zh) | 一种特征提取模型训练方法及设备 | |
CN115082920A (zh) | 深度学习模型的训练方法、图像处理方法和装置 | |
JPWO2014132611A1 (ja) | システム分析装置、及び、システム分析方法 | |
CN109472048A (zh) | 基于稀疏多项式混沌扩展评估智能电表结构可靠度的方法 | |
CN117041017A (zh) | 数据中心的智能运维管理方法及系统 | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
CN106156470B (zh) | 一种时间序列异常检测标注方法及系统 | |
CN114626744A (zh) | 一种基于科技创新能力的评估方法、系统和可读存储介质 | |
CN112380073B (zh) | 一种故障位置的检测方法、装置及可读存储介质 | |
CN108985755B (zh) | 一种账号状态识别方法、装置及服务器 | |
Yin et al. | An asymptotic statistical learning algorithm for prediction of key trading events | |
CN110458713B (zh) | 模型监控方法、装置、计算机设备及存储介质 | |
CN116757476A (zh) | 一种风险预测模型的构建、风险防控方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |