CN113347057A - 异常数据检测方法、装置、电子设备及存储介质 - Google Patents

异常数据检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113347057A
CN113347057A CN202110541339.2A CN202110541339A CN113347057A CN 113347057 A CN113347057 A CN 113347057A CN 202110541339 A CN202110541339 A CN 202110541339A CN 113347057 A CN113347057 A CN 113347057A
Authority
CN
China
Prior art keywords
service attribute
data
attribute data
deviation degree
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110541339.2A
Other languages
English (en)
Other versions
CN113347057B (zh
Inventor
胡智文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110541339.2A priority Critical patent/CN113347057B/zh
Publication of CN113347057A publication Critical patent/CN113347057A/zh
Application granted granted Critical
Publication of CN113347057B publication Critical patent/CN113347057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开关于一种异常数据检测方法、装置、电子设备及存储介质。该方法包括:获取业务属性数据序列,以及获取业务属性数据序列对应的业务属性输出数据;获取业务属性数据序列中的最新业务属性数据对应的第二业务属性偏离度;基于第二业务属性偏离度对第一业务属性偏离度进行更新;用更新后的第一业务属性数据的偏离度对业务属性数据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据。从而根据最新业务属性数据对业务属性数据进行动态跟踪,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据,以对有变化趋势的数据中的异常数据进行检测。

Description

异常数据检测方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机数据处理技术领域,尤其涉及异常数据检测方法、装置、电子设备 及存储介质。
背景技术
随着计算机互联网技术的发展,出现了各种各样的互联网服务。为保障互联网服务正 常运行,需要对互联网服务中产生的业务属性数据进行监控,将其中的异常数据检测出来。 传统异常数据检测方法中,通常是通过阈值门限或跳变值进行检测,将超出阈值门限或跳 变值的业务属性数据确定为异常数据。
然而,上述传统异常数据检测方法,仅适用于趋势稳定的数据,无法检测出有变化趋 势的数据中的异常数据。
发明内容
本公开提供一种异常数据检测方法、装置、电子设备及存储介质,以至少解决相关技 术中无法检测出有变化趋势的数据中的异常数据的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种异常数据检测方法,包括:
获取业务属性数据序列,以及获取所述业务属性数据序列对应的业务属性输出数据; 其中,所述业务属性数据序列中的业务属性数据包括业务的访问量或业务对象的关注数 据,所述业务属性输出数据包括业务属性数据的预测值、业务属性数据的限制值和第一业 务属性偏离度,所述第一业务属性偏离度为预设数量的业务属性数据相对于业务属性数据 的预测值的偏离度,偏离度用于表征所述业务属性数据的实测值与预测值之间的偏差;
获取所述业务属性数据序列中的最新业务属性数据对应的第二业务属性偏离度;其 中,所述第二业务属性偏离度,表示所述最新业务属性数据相对于业务属性数据的预测值 的偏离度;
基于所述第二业务属性偏离度对所述第一业务属性偏离度进行更新;
用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新,并将位于更 新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据。
在一示例性实施例中,所述基于所述第二业务属性偏离度对所述第一业务属性偏离度 进行更新,包括:
获取权重更新参数;其中,所述权重更新参数为调节所述第二业务属性偏离度与所述 第一业务属性偏离度的参数;
按照所述权重更新参数,用所述第二业务属性偏离度对所述第一业务属性偏离度进行 更新。
在一示例性实施例中,所述业务属性输出数据包括业务属性数据的跳变值,跳变值表 征两个相邻点之间的差值;
所述获取权重更新参数,包括:
获取所述业务属性数据序列中的业务属性数据的变化速度;
当所述变化速度大于或等于预设速度时,则按照第一预设比例或按照预设数值,调大 所述权重更新参数,得到第一权重更新参数;
按照第二预设比例和所述业务属性数据的跳变值,调整所述权重更新参数,得到第二 权重更新参数;其中,所述第二权重更新参数与所述业务属性数据的跳变值之间负相关。
在一示例性实施例中,所述权重更新参数包括第一权重和第二权重,所述第一权重表 征所述第二业务属性偏离度与前一第二业务属性偏离度之间的权重关系,所述第二权重表 征所述第二业务属性偏离度与所述第一业务属性偏离度之间的权重关系;
所述按照所述权重更新参数,用所述第二业务属性偏离度对所述第一业务属性偏离度 进行更新,包括:
用所述第一权重更新参数和/或第二权重更新参数,对所述第一权重和第二权重进行 更新;
按照更新后的第一权重和第二权重,用所述第二业务属性偏离度对所述第一业务属性 偏离度进行更新。
在一示例性实施例中,所述业务属性数据的限制值包括业务属性上限值和业务属性下 限值;
所述用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新,包括:
将所述业务属性上限值向上调整一个单位的所述第一业务属性偏离度,得到更新后的 业务属性上限值;
将所述业务属性下限值向下调整一个单位的所述第一业务属性偏离度,得到更新后的 业务属性下限值。
在一示例性实施例中,所述业务属性输出数据包括业务属性数据的跳变值;
所述用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新之后,还 包括:
若所述业务属性数据位于更新后的业务属性数据的限制值之内,则检测所述业务属性 数据与所述业务属性数据的跳变值之间的大小关系;
若所述业务属性数据大于所述业务属性数据的跳变值,则将所述业务属性数据确定为 所述异常数据。
在一示例性实施例中,所述用更新后的第一业务属性偏离度对所述业务属性数据的限 制值进行更新之后,包括:
检测所述第一业务属性偏离度与预设阈值之间的大小关系;
若所述业务属性数据对应的第一业务属性偏离度大于所述预设阈值,则将所述业务属 性数据确定为所述异常数据。
根据本公开实施例的第二方面,提供一种异常数据检测装置,包括:
数据获取单元,被配置为执行获取业务属性数据序列,以及获取所述业务属性数据序 列对应的业务属性输出数据;其中,所述业务属性数据序列中的业务属性数据包括业务的 访问量或业务对象的关注数据,所述业务属性输出数据包括业务属性数据的预测值、业务 属性数据的限制值和第一业务属性偏离度,所述第一业务属性偏离度为预设数量的业务属 性数据相对于业务属性数据的预测值的偏离度,偏离度用于表征所述业务属性数据的实测 值与预测值之间的偏差;
偏离度确定单元,被配置为执行获取所述业务属性数据序列中的最新业务属性数据对 应的第二业务属性偏离度;其中,所述第二业务属性偏离度,表示所述最新业务属性数据 相对于业务属性数据的预测值的偏离度;
偏离度更新单元,被配置为执行基于所述第二业务属性偏离度对所述第一业务属性偏 离度进行更新;
异常数据确定单元,被配置为执行用更新后的第一业务属性偏离度对所述业务属性数 据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确 定为异常数据。
在一示例性实施例中,所述偏离度更新单元还被配置为执行:
获取权重更新参数;其中,所述权重更新参数为调节所述第二业务属性偏离度与所述 第一业务属性偏离度的参数;
按照所述权重更新参数,用所述第二业务属性偏离度对所述第一业务属性偏离度进行 更新。
在一示例性实施例中,所述业务属性输出数据包括业务属性数据的跳变值,跳变值表 征两个相邻点之间的差值;
所述偏离度更新单元还被配置为执行:
获取所述业务属性数据序列中的业务属性数据的变化速度;
当所述变化速度大于或等于预设速度时,则按照第一预设比例或按照预设数值,调大 所述权重更新参数,得到第一权重更新参数;
按照第二预设比例和所述业务属性数据的跳变值,调整所述权重更新参数,得到第二 权重更新参数;其中,所述第二权重更新参数与所述业务属性数据的跳变值之间负相关。
在一示例性实施例中,所述权重更新参数包括第一权重和第二权重,所述第一权重表 征所述第二业务属性偏离度与前一第二业务属性偏离度之间的权重关系,所述第二权重表 征所述第二业务属性偏离度与所述第一业务属性偏离度之间的权重关系;
所述偏离度更新单元还被配置为执行:
用所述第一权重更新参数和/或第二权重更新参数,对所述第一权重和第二权重进行 更新;
按照更新后的第一权重和第二权重,用所述第二业务属性偏离度对所述第一业务属性 偏离度进行更新。
在一示例性实施例中,所述业务属性数据的限制值包括业务属性上限值和业务属性下 限值;
所述异常数据确定单元还被配置为执行:
将所述业务属性上限值向上调整一个单位的所述第一业务属性偏离度,得到更新后的 业务属性上限值;
将所述业务属性下限值向下调整一个单位的所述第一业务属性偏离度,得到更新后的 业务属性下限值。
在一示例性实施例中,所述业务属性输出数据包括业务属性数据的跳变值;
所述异常数据确定单元还被配置为执行:
若所述业务属性数据位于更新后的业务属性数据的限制值之内,则检测所述业务属性 数据与所述业务属性数据的跳变值之间的大小关系;
若所述业务属性数据大于所述业务属性数据的跳变值,则将所述业务属性数据确定为 所述异常数据。
在一示例性实施例中,所述异常数据确定单元还被配置为执行:
检测所述第一业务属性偏离度与预设阈值之间的大小关系;
若所述业务属性数据对应的第一业务属性偏离度大于所述预设阈值,则将所述业务属 性数据确定为所述异常数据。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一方面的任一项实施例中所 述的异常数据检测方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子 设备的处理器执行时,使得所述电子设备能够执行第一方面的任一项实施例中所述的异常 数据检测方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令, 所述计算机程序/指令被处理器执行时实现上述第一方面的任一项实施例中的异常数据检 测方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取业务属性数据序列,以及获取业务属性数据序列对应的业务属性数据的预测 值、业务属性数据的限制值和第一业务属性偏离度;获取业务属性数据序列中的最新业务 属性数据对应的第二业务属性偏离度;基于第二业务属性偏离度对第一业务属性偏离度进 行更新,并用更新后的第一业务属性偏离度对业务属性数据的限制值进行更新,使得更新 后的业务属性数据的限制值能够体现最新业务属性数据的影响,根据最新业务属性数据对 业务属性数据进行动态跟踪,并将位于更新后的业务属性数据的限制值之外的业务属性数 据,确定为异常数据,以对有变化趋势的数据中的异常数据进行检测,同时通过第一业务 属性偏离度对业务属性数据的限制值进行更新,能够避免业务属性数据整体偏离业务属性 数据的预测值导致的频繁报警。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限 制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例, 并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种异常数据检测方法的流程图。
图2是根据一示例性实施例示出的步骤S300的一种可实施方式的流程图。
图3是根据一示例性实施例示出的步骤S310的一种可实施方式的流程图。
图4是根据一示例性实施例示出的步骤S320的一种可实施方式的流程图。
图5是根据一示例性实施例示出的步骤S400的一种可实施方式的流程图。
图6是根据一示例性实施例示出的第一业务属性偏离度过大的示意图。
图7是根据一示例性实施例示出的一种异常数据检测装置框图。
图8是根据一示例性实施例示出的一种用于异常数据检测的设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实 施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的 数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相 一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方 面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种异常数据检测方法的流程图,本示例性实施例 以该方法应用于计算机设备进行举例说明,可以理解的是,该方法也可以应用于服务器, 还可以应用于包括计算机设备和服务器的系统,并通过计算机设备和服务器的交互实现。 具体包括以下步骤:
在步骤S100中,获取业务属性数据序列,以及获取业务属性数据序列对应的业务属 性输出数据;其中,业务属性数据序列中的业务属性数据包括业务的访问量或业务对象的 关注数据,业务属性输出数据包括业务属性数据的预测值、业务属性数据的限制值和第一 业务属性偏离度,第一业务属性偏离度为预设数量的业务属性数据相对于预测值的偏离 度,偏离度用于表征业务属性数据的实测值与预测值之间的偏差。
在步骤S200中,获取业务属性数据序列中的最新业务属性数据对应的第二业务属性 偏离度;其中,第二业务属性偏离度,表示最新业务属性数据相对于业务属性数据的预测 值的偏离度。
在步骤S300中,基于第二业务属性偏离度对第一业务属性偏离度进行更新。
在步骤S400中,用更新后的第一业务属性偏离度对业务属性数据的限制值进行更新, 并将位于更新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据。
其中,业务的访问量是指服务业务的访问频率、服务器端口压力等,业务对象的关注 数据是指服务业务的关注数据,例如,当一个业务服务为一个音视频作品时,业务对象的 关注数据是指该音视频作品的点赞、评论或转发量等。业务属性数据的预测值是指业务属 性数据的估计值。业务属性数据的限制值是指业务属性数据的最大值或最小值。偏离度是 指实测的业务属性数据与业务属性预测值的差值占业务属性预测值的比重。预设数量是指 用于计算第一业务属性偏离度的近期业务属性数据的数量。
具体地,获取业务属性数据序列,并根据业务属性数据序列查找到对应的业务属性预 测模型。将业务属性数据序列输入业务属性预测模型,得到业务属性数据的预测值、业务 属性数据的限制值和第一业务属性偏离度。接着,从业务属性数据序列中获取其最新的业 务属性数据,根据偏离度的计算方式,确定出最新业务属性数据与业务属性数据的预测值 之间的偏离度,得到第二业务属性偏离度。并基于第二业务属性偏离度对第一业务属性偏 离度进行更新,用更新后的第一业务属性偏离度对业务属性数据的限制值进行更新,使得 更新后的业务属性数据的限制值能够体现最新业务属性数据的影响,根据最新业务属性数 据对业务属性数据进行动态跟踪,将位于更新后的业务属性数据的限制值之外的业务属性 数据,确定为异常数据。
上述异常数据检测方法中,通过获取业务属性数据序列,以及获取业务属性数据序列 对应的业务属性数据的预测值、业务属性数据的限制值和第一业务属性偏离度;获取业务 属性数据序列中的最新业务属性数据对应的第二业务属性偏离度;基于第二业务属性偏离 度对第一业务属性偏离度进行更新,并用更新后的第一业务属性偏离度对业务属性数据的 限制值进行更新,使得更新后的业务属性数据的限制值能够体现最新业务属性数据的影 响,根据最新业务属性数据对业务属性数据进行动态跟踪,并将位于更新后的业务属性数 据的限制值之外的业务属性数据,确定为异常数据,以对有变化趋势的数据中的异常数据 进行检测,同时通过第一业务属性偏离度对业务属性数据的限制值进行更新,能够避免业 务属性数据整体偏离业务属性数据的预测值导致的频繁报警。
在一示例性实施例中,为步骤S100的一种可实施方式,包括以下步骤:
获取业务属性数据序列;根据业务属性数据序列,从预设的模型库中查找与业务属性 数据序列对应的业务属性预测模型;将业务属性数据序列输入业务属性预测模型,得到业 务属性输出数据。
其中,预设的模型库中存储有与各种类型的业务属性数据对应的业务属性预测模型。 业务属性预测模型是指能够根据一定量的业务属性数据,输出对应的业务属性数据的预测 值、业务属性数据的限制值、第一业务属性偏离度和业务属性数据的跳变值的预测模型。 预设的模型库中存储的业务属性预测模型可以是现有的预测模型,也可以是自行研发的预 测模型。
具体地,获取到业务属性数据序列后,对业务属性数据序列进行分析,确定业务属性 数据序列的类型,按照业务属性数据序列的类型,从预设的模型库中查找与业务属性数据 序列对应的业务属性预测模型。在得到对应的业务属性预测模型后,将业务属性数据序列 输入业务属性预测模型,得到业务属性输出数据,业务属性输出数据包括业务属性数据的 预测值、业务属性数据的限制值、第一业务属性偏离度和业务属性数据的跳变值。
上述示例性实施例中,获取业务属性数据序列;根据业务属性数据序列,从预设的模 型库中查找与业务属性数据序列对应的业务属性预测模型;将业务属性数据序列输入业务 属性预测模型,得到业务属性输出数据。从而能够根据具体业务属性数据序列快速确定相 应的业务属性预测模型,并得到对应的输出数据,为后续的异常数据检测提供数据基础, 以实现对有一定变化趋势的数据是否异常进行检测。
图2是根据一示例性实施例示出的步骤S300的一种可实施方式的流程图,包括以下 步骤:
在步骤S310中,获取权重更新参数;其中,权重更新参数为调节第二业务属性偏离度与第一业务属性偏离度的参数。
在步骤S320中,按照权重更新参数,用第二业务属性偏离度对第一业务属性偏离度 进行更新。
其中,权重更新参数是指在用第二业务属性偏离度对第一业务属性偏离度进行更新 时,对第一业务属性偏离度和第二业务属性偏离度的权重占比进行调整的参数。
具体地,在每次进行异常数据检测时,先获取权重更新参数,按照权重更新参数,用 第二业务属性偏离度对第一业务属性偏离度进行更新。用最新的第一业务属性偏离度对业 务属性数据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性 数据,确定为异常数据。
上述示例性实施例中,获取权重更新参数;按照权重更新参数,用第二业务属性偏离 度对第一业务属性偏离度进行更新。从而,可以应用权重更新参数,调节第二业务属性偏 离度更新到第一偏离度中的权重,提高最新业务属性数据的灵敏度,增加异常数据检测的 准确性。
图3是根据一示例性实施例示出的步骤S310的一种可实施方式的流程图,包括以下 步骤:
在步骤S311中,获取业务属性数据序列中的业务属性数据的变化速度。
在步骤S312中,当变化速度大于或等于预设速度时,则按照第一预设比例或按照预 设数值,调大权重更新参数,得到第一权重更新参数。
在步骤S313中,按照第二预设比例和业务属性数据的跳变值,调整权重更新参数,得到第二权重更新参数;其中,第二权重更新参数与业务属性数据的跳变值之间负相关。
其中,业务属性输出数据包括业务属性数据的跳变值,跳变值表征两个相邻点之间的 差值。业务属性数据的跳变值包括跳变上限值和跳变下限值。业务属性数据序列是一种时 间序列,其中的业务属性数据为按照时间顺序排列的。预设速度为对权重更新参数进行不 同调整的临界值。预设数值和预设比例为对权重更新参数进行调整的调整参数。
具体地,获取业务属性数据序列中的业务属性数据的变化速度,检测该变化速度与预 设速度之间的大小关系,当变化速度大于或等于预设速度时,则按照第一预设比例或按照 预设数值,调大权重更新参数,得到第一权重更新参数,并按照第二预设比例和业务属性 数据的跳变值,调整权重更新参数,得到第二权重更新参数,使得第二权重更新参数与业 务属性数据的跳变值之间负相关。
可选地,图4是根据一示例性实施例示出的步骤S320的一种可实施方式的流程图,包括以下步骤:
在步骤S321中,用第一权重更新参数和/或第二权重更新参数,对第一权重和第二权 重进行更新。
在步骤S322中,按照更新后的第一权重和第二权重,用第二业务属性偏离度对第一 业务属性偏离度进行更新。
其中,权重更新参数包括第一权重和第二权重。第一权重表征第二业务属性偏离度与 前一第二业务属性偏离度之间的权重关系,第二权重表征第二业务属性偏离度与第一业务 属性偏离度之间的权重关系。业务属性数据的限制值包括业务属性上限值和业务属性下限 值。
具体地,用第一权重更新参数和/或第二权重更新参数,对第一权重进行更新,得到 更新后的第一权重。用第一权重更新参数和/或第二权重更新参数,对第二权重进行更新, 得到更新后的第二权重。按照更新后的第一权重和第二权重,用第二业务属性偏离度对第 一业务属性偏离度进行更新。
例如,对于任意业务属性数据r(t),其第二业务属性偏离度x(t)为r(t)相对于业务属性 数据的预测值f(t)的偏离程度。第二业务属性偏离度x(t)可以有不同的表达形式,当用S 表示业务属性数据在预设时间内下变化的平均幅度大小,第二业务属性偏离度的第一种表 达形式为x(t)=[r(t)–f(t)]/S,即绝对误差用S归一化;第二业务属性偏离度的第二种表达形 式为x(t)=[r(t)–f(t)]/f(t),即相对误差无需用S归一化;第二业务属性偏离度的第三种表达 形式为x(t)=[r(t)–f(t)]/sqrt[f(t)]/sqrt[S],即半归一化的误差(表示偏离泊松分布标准差的倍 数)再用根号S做归一化。需要说明的是,以上三种偏离度的表达方式仅为示例性说明, 并不用于对偏离度进行具体限定。
x(t)为单点偏离度,第二业务属性偏离度y(t),用于描述近期业务属性数据的实测数 据相对于业务属性数据的预测值的整体偏离程度。设置第二业务属性偏离度y(t)的初值为0,对每一个最新数据点,按照y(t)=(1-a*b)*y(t-1)+a*b*x(t)的方式将最新点偏离度x(t)更 新到y(t)中,其中a与b为权重更新参数,取值均在0到1之间。其中,y(t)是业务属性 预测模型的输出数据的其中一项,其可以在业务属性预测模型的离线训练过程中从历史数 据的左端计算到右端,并把最新值一并存储在预测模型中,表示训练数据结束的位置近期 偏离度。在每次异常数据检测执行结束后,需要将更新的y(t)保存到业务属性预测模型中, 以便后续调用。
上述第一权重更新参数a,也可以称作快速更新指示参数或假期指示参数。例如,当 假期来临时,各个业务服务的网络平台的业务属性数据可能会发生加大的变化,当时间处 于假期阶段时,可以为第一权重更新参数a设置一个较大的值,让x(t)以更高的权重更新 到y(t),从而让y(t)变化更迅速,提高异常数据检测的跟踪速度。除此之外,也可以根据具体情况,给第一权重更新参数a配置一些缓变策略。而第二权重更新参数b为表征数据 点可靠性的参数,依赖于当前数据点的1至K步后向差分值相对于业务属性预测模型给 出的1至K步后向差分值上下界的大小,业务属性数据的跳变值的绝对值越大第二权重 更新参数b越小。此处设计可以有多种变化,例如业务属性数据的跳变值为D,D>0,业 务属性上限值为U,则可以让参数b=exp(-p*D/U),其中p为常量;对于D<0则用业务属 性下限值L做分母,即b=exp(-p*D/L)。此外,也可以用一些反比例函数或分段线性的函 数。当K>1时,可以同时利用1步跳变到K步跳变这K个不同的跳变数值,分别计算上 述对应的参数b然后做乘积,或者设计一个联合的函数。无论如何,都必须保证1步跳变 到K步跳变的业务属性数据的跳变值的绝对值与最终的参数b成负相关关系,且b的值 域在0至1之间。
上述示例性实施例中,通过权重更新参数,可以使用第二业务属性偏离度对第一业务 属性偏离度进行更新的过程中,能更好的对近期数据进行跟踪,避免前期数据的过大影响, 尽可能多的采用近期数据对异常数据进行检测,能提高异常数据检测的准确性。
图5是根据一示例性实施例示出的步骤S400的一种可实施方式的流程图,包括以下 步骤:
在步骤S410中,将业务属性上限值向上调整一个单位的第一业务属性偏离度,得到 更新后的业务属性上限值。
在步骤S420中,将业务属性下限值向下调整一个单位的第一业务属性偏离度,得到 更新后的业务属性下限值。
其中,业务属性数据的限制值包括业务属性上限值和业务属性下限值。
具体地,更新最新业务属性数据对应的第二业务属性偏离度y(t)后,可以用y(t)修正 预测的原始业务属性上限值U和原始业务属性下限值L。对应第二业务属性偏离度的第 一种表达形式,则新的上界为y*S+U,新的下界为y*S+L。第二业务属性偏离度的第二 种表达形式,则新的上界为y*U+U,新的下界为y*L+L。第二业务属性偏离度的第三种 表达形式,则新的上界为y*sqrt[U]*sqrt(S)+U,而新的下界为y*sqrt[L]*sqrt(S)+L。需要 注意的是,后两种只适用于量值数据,且第三种需要保证上下界都不小于零(为了开根号)。
可选地,若业务属性数据位于更新后的业务属性数据的限制值之内,则检测业务属性 数据与业务属性数据的跳变值之间的大小关系;若业务属性数据大于业务属性数据的跳变 值,则将业务属性数据确定为异常数据。
可选地,检测第一业务属性偏离度与预设阈值之间的大小关系;若业务属性数据对应 的第一业务属性偏离度大于预设阈值,则将业务属性数据确定为异常数据。
具体地,对于给定的1+K个业务属性数据,使用更新后的业务属性上限值、业务属性下限值判决业务属性数据是否异常。如果未见异常,则继续用1+K个数据分别计算k 步(k=1~K)后向差分,然后分别使用对应的业务属性数据的跳变值进行判决。如果上述 条件均没有检测出异常,则最后检查当前数据的第一业务属性偏离度y(t)的数值是否超过 预设阈值,如果超出则说明整体抬升或下降的幅度超出预期。由于偏离度的报警形容曲线 的整体形态,因此仅需要在很长时间段内上报一次即可,无需每点都汇报。以上各个异常 检测规则的物理意义明确,能让收到报警的人员第一时间了解业务属性数据的运行状况。 此外,对于某些数据业务曲线,可以单独设置仅报出向上的超界异常或向下的超界异常, 方便拓展。
示例地,当数据以较慢的速度不断远离业务属性数据的预测值时,由于上下界动态跟 踪的原因,不会导致数据超过业务属性上限值、业务属性下限值和业务属性数据的跳变值, 但是偏离过远是不能容忍的。因此,第二业务属性偏离度y(t)范围不能超过一个固定的区 间(例如[-0.1,0.1]),如果超过则按照“偏离度过大”判定为异常。此处的0.1作为近期偏 离度y的界限在上述三种不同的偏离度定义下具有哪些不同的物理意义了。首先,对于量 值数据的高峰期,f(t)≈S,故三种定义十分接近,表示容忍的相对误差为10%。然而在低 峰期三种各不相同,对于第一种定义,表示能近似容忍数据偏离“数据整体最高值的10%” (很宽的范围);对于第二种定义,表示能近似容忍数据偏离“这个位置预测值的10%” (很窄的范围);对于第三种定义,表示能容忍数据的偏离程度介于前两者之间,如果最 低值约为最高值的九分之一,则表示低峰期能近似容忍数据偏离“这个位置30%”(根号九 再乘以10%)。对于很多“低峰期可以容比高峰期更多的相对误差”的业务数据而言,第三 种定义更好。具体实现过程中,可以根据具体情况择一或者结合使用。
图6是根据一示例性实施例示出的第一业务属性偏离度过大的示意图,在上半子图左 侧,具有填充背景颜色的时段表示该处数据的第一业务属性偏离度超过0.1。而下半子图 表示业务属性数据的跳变值和跳变值的上下界。
上述示例性实施例中,根据最新业务属性数据对业务属性数据进行动态跟踪,并将超 出更新后的业务属性数据的限制值的业务属性数据,确定为异常数据,以实现对有一定变 化趋势的数据是否异常进行检测。进一步通过业务属性数据与业务属性数据的跳变值之间 的大小关系、第一业务属性偏离度与预设阈值之间的大小关系,判断业务属性数据是否异 常,层层递进,能全方位检测存在异常的数据,以实现对有一定变化趋势的数据是否异常 进行检测。
在一示例性实施例中,预设的模型库中的业务属性预测模型的确定方式包括:对获取 到的业务属性数据序列进行预测,得到业务属性预测基线;其中,业务属性数据序列为周 期性数据,业务属性数据序列中的业务属性数据包括业务的访问量或业务对象的关注数 据;获取业务属性预测基线与业务属性数据的实测数据之间的误差序列,对误差序列进行 拟合,得到业务属性数据的限制值;其中,业务属性数据的限制值包括业务属性上限值和 业务属性下限值;获取实测数据的1~k步后向差分序列,对差分序列进行拟合,得到业 务属性数据的跳变值;其中,业务属性数据的跳变值包括跳变上限值和跳变下限值,k为正整数;将业务属性数据的限制值和业务属性数据的跳变值中的至少一个,并入业务属性预测基线,得到业务属性预测数据。
其中,业务的访问量是指服务业务的访问频率、服务器端口压力等,业务对象的关注 数据是指服务业务的关注数据,例如,当一个业务服务为一个音视频作品时,业务对象的 关注数据是指该音视频作品的点赞、评论或转发量等。业务属性上限值是指业务属性数据 的最大值。业务属性下限值是指业务属性数据的最小值。跳变上限值是指某一位置数据与 上一位置数据之间的差的最大值。跳变上限值是指某一位置数据与上一位置数据之间的差 的最小值。
具体地,获取具有周期性的业务属性数据序列,对业务属性数据序列进行预测,得到 业务属性预测基线。接着,获取业务属性预测基线与业务属性数据的实测数据之间的误差 序列,并对误差序列进行拟合,得到业务属性数据的限制值,该业务属性数据的限制值的 业务属性上限值和业务属性下限值为包络着业务属性预测基线的上下界。同时,获取实测 数据的1~k步后向差分序列,并对差分序列进行拟合,得到业务属性数据的跳变值,该业务属性数据的跳变值包括跳变上限值和跳变下限值,用于对跳变数据进行限定。最后,将业务属性数据的限制值和业务属性数据的跳变值中的一个或全部,并入业务属性预测基线,得到业务属性预测数据。
上述业务属性预测方法中,通过对获取到的业务属性数据序列进行预测,得到业务属 性预测基线,并获取业务属性预测基线与业务属性数据的实测数据之间的误差序列,对误 差序列进行拟合,得到业务属性数据的限制值,获取实测数据的1~k步后向差分序列, 对差分序列进行拟合,得到业务属性数据的跳变值。从而能够得到基于业务属性数据序列 的业务属性预测基线、用于限定预测上界和预测下界的业务属性数据的限制值和用于限定 跳变值的业务属性数据的跳变值,并将业务属性预测基线以及业务属性数据的限制值、业 务属性数据的跳变值中的至少一个确定为业务属性预测数据,从多个维度对业务属性数据 序列进行预测,通过预测基线、业务属性数据的限制值和业务属性数据的跳变值,共同对 具有周期性的数据进行预测和限定。
在一示例性实施例中,获取业务属性预测基线与业务属性数据的实测数据之间的误差 序列,包括:
具体地,对于业务属性预测基线f(t),将f(t)与对应的历史业务属性数据h(t)做差,得 到误差序列,该误差序列的长度与历史数据的长度一样。需要说明的是,此处的“误差” 可以使用绝对误差,即任意一点误差e(t)=h(t)–f(t);可以使用相对误差(归一化误差), 即任意一点误差e(t)=[h(t)–f(t)]/f(t)(f(t)不为0);还可以使用介于绝对误差和相对误 差之间的“半归一化误差”(“根号归一化误差”或“泊松标准差倍数”),其表达式为e(t)=[h(t)–f(t)]/sqrt[f(t)]。如果使用的是绝对误差,那么误差上下界可以直接加到业 务属性预测基线上从而生成业务属性数据的限制值。如果使用的是相对误差,那么误差上 下界需要先乘以业务属性预测基线的数值再加到业务属性预测基线上,从而生成业务属性 数据的限制值。如果使用的是半归一化误差,那么误差上下界需要先乘以根号下预测基线 的数值在加到业务属性预测基线上,从而生成业务属性数据的限制值。
可选地,对误差序列进行拟合可以采用高斯核密度估计,假设误差序列为高斯分布, 则对于量值数据(每分钟发生某事件的次数)而言,采用半归一化误差或相对误差更合理, 对于率值数据(例如丢包率等)而言采用绝对误差更合理。三种方式会在量值数据的低峰 期产生不同的上下界松紧程度,归一化的误差计算方式会让低峰期数据的上下界特别紧, 而不归一化的误差计算方式会让低峰期数据很松。
上述示例性实施例中,取业务属性预测基线与业务属性数据的实测数据之间的误差序 列,对误差序列进行拟合,得到包括业务属性上限值和业务属性下限值的业务属性数据的 限制值。可以为从多个维度对业务属性数据序列进行预测提供数据基础,在业务属性数据 的限制值的限制下,对具有周期性的数据进行预测和限定。
在一示例性实施例中,获取实测数据的1~k步后向差分序列,包括:
具体地,对于历史数据h(t),计算其1步~K步的后向差分序列(共K条序列)。假设,历史数据在t时刻的值为h(t),则其k步(k从1~K中选取)后向差分在t时刻的数 值为d[t,k]=h(t)-h(t-k)。对于数据的最左侧而言(例如t=0),由于没有更左侧的数据,因 此可以不计算其差分值,也可以通过一些左侧延长的方法(例如常数延长、线性延长和周 期性延长等)强行计算出来。根据需要可以设定k的上限K,若设置K为1则表示只需 要计算1步后向差分的数据。利用该序列,可以在后续的处理中,计算出“k步跳变上下 界”(k有几个取值就有对应的几套上下界)。
上述示例性实施例中,取业务属性数据的实测数据之间的1~k步后向差分序列,对 差分序列进行拟合,得到包括跳变上限值和跳变下限值的业务属性数据的跳变值。可以为 从多个维度对业务属性数据序列进行预测提供数据基础,在业务属性数据的跳变值的限制 下,对具有周期性的数据进行预测和限定。
在一示例性实施例中,核密度拟合包括:对于上述误差序列和差分序列,按照单位时 间长度(例如“天”)并置堆叠,堆叠后的左右宽度为L(单位时间长度的点数),而厚 度为N(周期长度)。其中的任意一个纵列代表了单位时间长度的某个时刻的数值,为计 算每个时刻点数值的上限值和下限值(上下界),可以参考当前时间点附近的数据,若时 间窗口为r,则需要用r×N个数据来计算出本时刻点的上限值和下限值(对以天为周期以 分钟为分辨率的数据一般r取1~3)。
关于拟合可以采用高斯核的KDE算法,该算法将输入的数据拟合成多个高斯分布的 叠加,从而可以拿到其累积概率分布。在其累积概率分布曲线中找到数值为ρ下分位点和 数值为ρ的上分为点(一般取0.005左右),即可当作该点所具有的上限值和下限值。根据输入的数据不同,KDE的输出代表不同的意义。当输入为误差序列时,其输出的上限 值和下限值表示拟合误差的上下界,将其加到业务属性预测基线上即代表拟和预测的业务 属性上限值和业务属性下限值。当输入1~k步步后向差分序列时,则其输出的上限值和 下限值代表实测数据的单步跳变能够容忍的范围,即跳变上限值和跳变下限值。
可选地,上述上限值和下限值是独立计算的,这样计算出的上限值和下限值在时间维 度上波动剧烈,因此需要找到一个合适的平滑包络。可选地,可以采用多次max&mean方式求得上边界包络,多次min&mean求得下边界包络。此处以上限值举例说明,具体为, 对业务属性数据的任意一点,在其附近长度为w的时间窗口内求最大值,结束后再对任 意一点再其附近长度为w的时间窗口内求平均值。反复处理预设次数或直到图形平稳或。 为图形波动平滑程度更适应数据本身的特性,这里的时间窗口w的大小可以根据截止频 率(具体截止频率的计算方法见下文)M计算出来,采用负相关函数例如w=L/M,还可 以限制w的最大取值和最小取值,以避免极端情况。最后,可以为上限值和下限值分别 增加一个偏置值δ(可调参数),该值用当前数据整体上下幅度的某个倍数表示,使得上 下界可以适当地扩张。
上述示例性实施例中,通过对业务属性数据的限制值和业务属性数据的跳变值的确 定,可以为从多个维度对业务属性数据序列进行预测提供数据基础,在业务属性数据的限 制值和业务属性数据的跳变值的限制下,对具有周期性的数据进行预测和限定。上述业务 属性预测基线业务属性数据的限制值和业务属性数据的跳变值最后被统一存储到模型库 里(例如可以利用redis内存数据库实现),对于上述所有训练功能,用python实现且运行于笔记本电脑的单线程程序,在用28天的历史数据生成2天预测时耗时3s,而在用63 天数据生成7天预测时耗时7s。
在一示例性实施例中,业务属性预测基线的确定方式,包括:
对业务属性数据序列的趋势分量进行预测得到趋势预测数据,对业务属性数据序列的 周期分量进行预测得到周期预测数据;按照获取到的第一权重向量,对趋势预测数据、周 期预测数据和获取到的随机噪声进行加权,得到业务属性预测基线。
其中,随机噪声是由在预设范围内的随机数组成,用于模拟业务属性数据实测值中的 噪声分量,以使业务属性预测基线更符合实际规律。第一权重向量是指对组数据进行加权 求和设置的一组权重参数,根据数据类型的不同,该权重参数可对应调整设置。
具体地,对业务属性数据序列的趋势分量进行预测得到趋势预测数据,对业务属性数 据序列的周期分量进行预测得到周期预测数据。在得到趋势预测数据和周期预测数据后, 并按照第一权重向量,对趋势预测数据、周期预测数据和获取到的随机噪声进行加权,得 到业务属性预测基线。
可选地,关于趋势预测数据,还包括:按照预设的均值分析法,确定出不存在业务属 性数据的目标待预测点对应的预测数据,得到趋势预测数据。
其中,均值分析法包括,根据待预测点预设范围内的数据,确定待预测点的值;目标 预测点对应的位置为待预测点,趋势预测数据为待预测点的值。
具体地,以下采用一周(7天)为业务属性数据序列的周期长度进行说明。关于趋势预测数据,一般预测长度设为1~7天。首先,假定未来几天的日均值跟最后一个日均值 相同,然后将这些天的业务属性数据标记为不可靠数据,然后把全部的日均值输入到日均 值分析算法中,运算结束后能够获取几天的日均值估计,即趋势预测数据。接着把历史的 日均值和预测的日均值当作每日中央的一个关键点,对缺失的部分进行线性插值,从而构 造出长度为“历史长度+预测长度”的趋势折线。
可选地,关于周期预测数据,还包括:获取业务属性数据序列对应的截止频率,在截 止频率的限制下,拟合业务属性数据序列对应的周期分量,并对周期分量进行扩展,得到 周期预测数据。
其中,截止频率是指当保持输入信号的幅度不变,改变频率使输出信号降至最大值的 0.707倍,即用频响特性来表述即为-3dB点处即为截止频率,是用来说明频率特性指标的 一个特殊频率。在本示例性实施例中,截止频率是指为周期性的业务属性数据进行拟合的 最大频率。
具体地,对业务属性数据序列进行时序分解,分解过程中,可以选择乘性模型或加性 模型,乘性模型为“实测数据=趋势*(周期波动+随机噪声)”,加性模型为“实测数据=趋 势+周期波动+随机噪声”。乘性模型对于波动幅度随涨幅增长的数据更有效,而加性模型对于波动幅度几乎不随涨幅变化的数据更有效,可以根据业务属性数据的具体情况选择乘性模型或加性模型。此处以乘性模型为例进行说明,在使用乘性模型时,为避免部分非求和性统计数据存在小于等于0的状况,可以将数据整体向上提高一个固定值,保证任意数据点都是大于0的,并在在拟合之后再将数据整体搬移回来。在确定了业务属性数据序列对应的截止频率后,可在截止频率的限制下,拟合业务属性数据序列对应的周期分量,将拟合后的周期分量进行扩展,能够得到周期预测数据。
示例地,基于截止频率(倍频上限),可以选取合适的频率分量从而生成周期项的拟 合(以及预测)。由于正交变换假设了有限长度时域信号的左右外侧是本段信号的重复放 置,因此为了提取出以周为周期的特性,必须让时域信号的长度为一周的整数倍。其中,提取以天为周期的波动和提取以周为周期的波动可能会用到不同范围区域的数据,因此,按照时刻对齐,从N天的历史数据中可以截取到
Figure RE-GDA0003197825880000141
周(表示向下取整)的数据, 对这两段数据分别作正交变换,得到对应的频域信息。对于整数天为倍数的FFT,从中抽 取0、N、2N……M×N的频率分量,用三角函数恢复时域波形W,其中的M为上面计 算出的最佳倍频数值。这里需要注意由于在变换的结果中L-x与x属于同频,因此提取频 率分量N的时候不仅要取下标N也要取下标L-N。对于整数周为倍数的正交分量,从中 抽取W、2W……M'×W的频率分量,且从中剔除N的整数倍的那些频率(避免重复), 用三角函数恢复时域波形。这里的M'可以单独对周期长度(一周)的截止频率做计算, 也可设定一个固定的数值,因为周的周期性对形状的影响一般不如天的周期性,影响较小。 最后,由于三角函数的周期性,可以向左向右进行周期延拓,从而获得覆盖历史数据时间 段和需要预测的时间段的完整数据。最后将以天为周期性的时域波动与以周为周期性的时 域波动相加,即可获得所需的周期性波动的拟合&预测序列,即周期预测数据。
上述示例性实施例中,可以分别对业务属性数据序列的趋势分量和周期分量进行预 测,采用均值分析法,对业务属性数据序列的趋势分量进行预测;同时,在业务属性数据序列对应的截止频率的限制下,确定出周期预测数据。并最终按照第一权重向量,对趋势预测数据、周期预测数据和获取到的随机噪声进行加权,得到业务属性预测基线。以实现从整体趋势和周期变化两个维度对业务属性数据序列进行预测目的,为后续对具有周期性的数据进行预测和限定提供预测基线。
在一示例性实施例中,截止频率的确定方式,包括:
获取业务属性数据序列的相位序列,以及获取相位序列对应的频谱幅度;对频谱幅度 进行归一化处理并升序排列,得到频谱幅度序列;将频谱幅度序列中第一个大于第一预设 数值的频谱幅度的频率,确定为截止频率。
其中,相位序列是指对业务属性数据序列进行正交分解时得到的相位数据形成的序 列。第一预设数值是指控制截止频率的参数,截止频率表征对业务属性数据序列对应的周 期分量进行拟合的最大频率。
具体地,可采用FFT(快速傅里叶变换)对周期预测数据进行拟合预测。FFT可以将时序数据分解为多个正交的三角函数。首先,需要说明的是,从算法的输入输出来看,如 果输入长度为Z的时序数据,那么将会获得长度为Z的复数序列,其中序列中第k个复 数的模代表频率为k的余弦函数的幅度,而第k个复数的幅角代表频率为k的余弦函数的 初始相位。例如,假设第k个复数为(1,1),则对应的三角函数表达式为:f_k(t)=sqrt(2)× cos(k×t/Z×2π+45°)。其中,k=0为直流分量,k=Z/2为最高频,k与Z-k为同频但是正 交的三角函数(cos和sin)。因此下面的描述中,将大于Z/2的k视为Z-k来进行描述(即 k=Z-1和k=1均为频率为1的分量)。此外,如果数据长度包含N天,每天L个点,总 长Z=N×L时,只有k等于N的整数倍时,其三角函数的波形才会以天为周期。类似地, 只有当k等于7N的整数倍时,其三角函数的波形才会以周为周期。因此,获取周期预测 数据的“第一个要点”在于从FFT的结果中提取出合理的三角函数分量,然后加和生成 周期预测数据。
在剔除“不是以天或周为周期的分量”的同时,还需要确定对应的“截止频率”以避免过拟合。由于对k只取N的整数倍的分量,因此需要考察对应的最大倍频上限“截止 频率M”,即选取k=0,N,……,M×N。获取周期预测数据的“第二大要点”,即确定 最大倍频上限M的值。由于实际数据往往存在以周为周期的特性,因此不仅要提取以天 为周期的分量k=0,N,……,M×N,还要提取以周为周期的分量k=0,7N,……,M'×7N (去除跟天重复的部分)。需要计算以天为周期的倍频上限M,以及以周为周期的倍频 上限M'(如果数据包含“周”的数量不多则可以不做M'的计算而直接设一个固定值)。
可选地,对于每天L个点总共N天的数据,第一步提取出上述0、N、2N……(L-1)×N这些分量的“相位值”构成一个长度为L的“相位序列”。第二步对这个相位序列继续 做FFT变换,获得长度为L的新的复数序列,选出下标为1~L/2的子序列并计算幅值, 则可以表示“相位序列”的频谱幅度。第三步对这个频谱幅度归一化到[0,1]后递增排序, 在排序后的序列中找出第一个大于ε(一般设为0.03)的数据,该数据下标+1即代表了 最佳倍频上限M,而对应的截止频率为M×N,其中N代表历史数据的天数。
上述示例性实施例中,通过获取业务属性数据序列的相位序列,以及获取相位序列对 应的频谱幅度;对频谱幅度进行归一化处理并升序排列,得到频谱幅度序列;将频谱幅度 序列中第一个大于第一预设数值的频谱幅度的频率,确定为截止频率。为后续周期预测数 据提供数据基础,应用截止频率,过滤掉高频且相对无用的信息,得到稳定且包含大量有 用信息的周期预测数据。
在一示例性实施例中,业务属性数据序列替换方式,包括:
获取初始业务属性数据序列;按照预设的第一时间序列,从初始业务属性数据序列中 获取初始业务属性数据,得到至少一个第一目标业务属性数据;按照均值分析法,确定出 与第一目标业务属性数据对应的第一业务属性更新数据;其中,第一目标业务属性数据对 应的位置为待预测点,第一业务属性更新数据为待预测点的值;采用第一业务属性更新数 据,替换初始业务属性数据序列中对应的初始业务属性数据,得到业务属性数据序列。
其中,第一时间序列为指定时间点形成的时间序列,指定时间点可以是节假日或者其 他可能使业务属性数据产生突变的时间点。
具体地,采用峰谷划分发对业务属性数据序列进行划分:按照单位长度(例如每天) 最低点位置,对初始的业务属性数据进行切分。具体寻找平均每日最低点的可靠算法为: 对业务属性数据序列实施FFT(快速傅里叶变换),变换后获得序列在频域的幅度谱和相 位谱,这些信息描述了原始序列被分解为不同频率的三角函数后具有怎样的幅度和相位。 由于预处理中已经把数据截取为N个周期(天)的长度,因此这里从中提取频率为N*1、N*2……N*M的M个分量(对于每天1440点的数据而言M取10~20左右即可),在时 域上重新叠加这些频率分量的三角函数,从而恢复出能够稳定描述每日涨落的周期性波 形。在该波形中找到任意一个最小值,那么它的位置就代表了一个划分点,参照此点可以 将整个数据序列等间隔划分为多段(左右两端的长度一般可能不满1440点)。
为了应对节假日或其他容易使业务属性数据突变的时间点,需要维护一个第一时间序 列(时间列表),第一时间序列中的每一个条目标记节假日或可能是业务属性数据产生突 变的时间点(例如:法定假日、包括周末调休在内的任何会导致数据形态反常的日期)。 在此基础上,对于上面给出的每日峰谷划分,重新定义每段数据归属的“日期”。若最低 点处于0时~12时之间,则将当前最低点之后的数据段归属划分为该天,否则划分为第二 天。例如,如果某数据的每日最低点为凌晨3时,那么10月1日凌晨3时~10月2日凌 晨3时被视为“十月一日”;如果某数据的每日最低点为傍晚18时,那么10月1日傍晚 18时~10月2日傍晚18时的数据被视为“十月二日”。如果当前训练数据所包含的节假 日占比不超过一半且数据包含至少七个周期(天),则进行下面的假期数据修正操作,否 则跳过。每一段被归属于节假日的数据都需要被替换为常规形状,以免影响后续的算法学 习对规律的学习。具体而言,对于任意一天的节假日数据段,需要在给定的历史数据中向 前向后找到一周或多周前以及一周或多周后的可用数据(也就是非节假日的数据段,且长 度能覆盖被替换部分)。存在多段可用数据时需要计算这些数据段在每个时间点的中位数 值(或平均值),从而构成新数据段,即备选的用于替换节假日的数据段。
在正式替换之前都还需要采用日均值分析法进行修正操作:在用备选数据段替换节假 日数据段之前,需要分析此处的数据应该具有多大的整体幅度。这是为了避免具有上涨下 跌趋势的数据在替换时不匹配的问题,例如数值不断上涨的周期数据,一周前的数据幅度 值无法与本周需要被替换的数据幅度值相匹。在计算出目标数据段应该具有的目标日均值 之后,用该日均值给备选的数据段做修正(乘上一个数使得其日均值等于目标日均值), 得到业务属性数据序列。
上述示例性实施例中,基于业务属性数据序列起伏的主要区别在于数值较高点,相对 而言每日最低点的数据形态更有规律且更加稳定,因此按照峰谷划分的方式对业务属性数 据进行划分,可以得到划分结果更为清晰的序列。同时,通过维护一个第一时间序列,并 对第一时间序列对应的业务属性数据进行替换,使得业务属性数据序列更具有规律性,可 以为后续数据处理提供稳定的数据基础。
在一示例性实施例中,业务属性预测基线的补全方式,包括:
按照预设的第二时间序列,从业务属性数据序列中获取业务属性数据,得到至少一个 第二目标业务属性数据;按照预设的第二权重向量,对在第一目标业务属性数据预设时间 段内的第二目标业务属性数据进行加权,得到第二业务属性更新数据;采用第二业务属性 更新数据,替换业务属性预测基线中对应的业务属性数据,得到更新后的业务属性预测基 线。
其中,第二时间序列为指定时间点形成的时间序列,指定时间点可以是与第一时间点 对应的周围的时间点。第二权重向量是指对组数据进行加权求和设置的一组权重参数,根 据数据类型的不同,该权重参数可对应调整设置。
具体地,按照上述的计算,可以得到趋势拟合&预测的数据以及周期性波动拟合&预 测的数据,按照“实测数据=趋势×(周期波动+随机噪声)”的乘积模型,相应地有“预测数据=趋势×周期波动”,即可以获得最终的拟合&预测基线。由于该业务属性数据预测 基线是将第一时间序列对应的时间点剔除的序列,当第一时间序列为节假日时,业务属性 预测基线并不考虑节假日,因此在得到业务属性预测基线后,需要重构节假日的数据幅度。具体方法为:提前准备节假日表,标记法定节假日是放假还是加班(调休)。如果某个数 据段对应着放假,则用预测基线中附近的周末数据(周六周日)的加权平均替换本节假日 数据段。如果某个数据段对应着加班,则用预测基线中附近的周中数据(周一~周五)的 加权平均替换本节假日数据段。加权方式可以采用给近的数据以更大权重的方式来设计。 替换时需要考虑衔接点的跳变,但无需做日均值分析。
上述示例性实施例中,在将部分可能使业务属性数据产生突变的时间点剔除并得到初 步的业务属性预测基线后,对剔除的时间点的数据进行恢复,能够得到更为准确的业务属 性预测基线,为后续确定业务属性数据的限制值和业务属性数据的跳变值提供更加精确的 基线,使得到的业务属性数据的限制值和业务属性数据的跳变值更为准确。
在一示例性实施例中,均值分析法,包括:
在待预测点之前的周期内,获取与待预测点位置对应的数据,得到第一初始数据;在 待预测点之后的周期内,获取与待预测点位置对应的数据,得到第二初始数据;获取与待 预测点相邻的第三初始数据和第四初始数据,以及获取待预测点对应的初始值;获取第一 初始数据、第二初始数据、第三初始数据、第四初始数据与初始值之间的权重关系,得到第一初始数据对应的第一边权重、第二初始数据对应的第二边权重、第三初始数据对应的第三边权重和第四初始数据对应的第四边权重;按照预设的第三权重向量,对第一初始数据、第二初始数据、第三初始数据和第四初始数据进行加权,得到待预测点对应的预测值。;采用预测值,替换初始值,并返回执行获取第一初始数据、第二初始数据、第三初始数据、第四初始数据与初始值之间的权重关系,得到第一初始数据对应的第一边权重、第二初始数据对应的第二边权重、第三初始数据对应的第三边权重和第四初始数据对应的第四边权重,直到预测值的波动小于第二预设数值,则将预测值确定为待预测点的值。
其中,待预测点为周期性数据中的点。第三权重向量是指对组数据进行加权求和设置 的一组权重参数,根据数据类型的不同,该权重参数可对应调整设置。
具体地,日均值分析法可以通过挖掘业务属性数据之间的关联,计算出业务属性数据 不可靠日均值(节假日数据)本来应该有的数值大小(如果那些天不是节假日的话应该为 多少)。首先,以周期为一周、7天为例进行说明,需要把日均值数据放到一个日历形式的二维表中。其中,没有底纹的数字表示可靠的日均值,而具有方形灰色底纹的数字则表示需要被重新推测的不可靠的节假日数据(待预测点)。接下来的任务是计算出那些不可靠数据“本应具有”的数值大小。将日历表结构中的每个日均值当作一个节点,为节点之 间添加边,来描述每对节点之间的关系。可选地,可以使用“日环比”和“周同比”这两 个物理量来描述“相邻的两天”和“相邻周的对应两天”之间的关系。其中,“日环比” 其中横向的箭头表示,可以定义为箭头前后两个日均值的差值(或者是比值);“周同比” 纵向的箭头表示,可以定义为箭头上下两个日均值的差值(或者是比值);在数据的整体 结构中,“日环比”和“周同比”在不同位置可能具有一定的相似性。例如,本周的周二 &周三的“日环比”,可能跟上一周或下一周的周二&周三的日环比相似;本周周二和下 周周二的“周同比”,可能跟上周周二和本周周二的“周同比“相似。因此,需要挖掘这 一规律,而采取的方式为迭代地利用节点数值(也就是某天的日均值)计算那些边权重(也 就是日环比和周同比),再用边权重计算节点数值(待预测点),最终收敛不变即可停止。 每轮迭代需要更新权重参数(第一边权重、第二边权重、第三边权重和第四边权重),对 于某个横向的边,虽然它仅联系左右的两个节点(第一初始数据、第二初始数据),但是 为了考察平均的“日环比”,因此向前向后分别扩展X周(X可以取2),计算2X+1个 日环比数值,加权平均后所得的结果作为本边的新权重(第一边权重、第二边权重)。扩 展时如果超出数据范围则忽略超出的部分。加权时可以完全平均,也可以根据计算时是否 使用了不可靠日均值来相应增减各自权重。每轮迭代计算纵向边权重:对于某个纵向的边, 虽然它仅联系上下的两个节点(第三初始数据、第四初始数据),但是为了考察平均的“周 同比”,因此向左向右分别扩展X天(X可以取3),计算2X+1个周同比数值,加权平 均后所得的结果作为本边的新权重。注意在左右扩展时,计算范围可以扩展到上一行或下 一行的位置。与计算横向边类似,加权时可以完全平均,也可以根据计算时是否使用了不 可靠日均值来相应增减各自权重(第三边权重和第四边权重)。每轮迭代计算节点数值: 每个节点最多直接连接四个边(箭头),因此用这四个边以及相连的周围四个节点来对本 节点进行更新计算。例如,假设本节点为第三周周二,那么则用“第三周周三的日均值” 和“第三周周二&周三的日环比”可以反推出本节点的数值。类似地,还可以用“第三周 周一的日均值”和“第三周周一&周二的日环比”、“第二周周二的日均值”以及“第二& 第三周在周二的周同比”、“第四周周二的日均值”以及“第三&第四周在周二的周同比” 这另外三种种数据来源,分别进行反推。由于一共四种计算结果,因此需要将四个结果加 权平均,加权时可以给那些利用了不可靠日均值的结果(例如第二周周二是节假日,因此 用它算第三周周二的日均值不可靠)以更低的权重。按照上面步骤,每轮计算边权重,再 计算节点数值,最终当节点的结果都收敛不变时(一般在20轮以内),算法停止运行。 此时,可以设计一种方式来衡量本次日均值分析算法运行结果的不确定性。例如,前面提 到的更新节点数值时使用了四个数值做加权,那么加权之前的四个数分别跟加权后的结果 差别大的话,不确定性就大。因此对每个点,可以计算“极差之和”或“方差”来描述其 不确定性,然后对所有点的不确定性进行加和或平均作为整体的不确定性。该不确定性可 以用于决定节假日替换的权重,例如归一化的不确定性为0.1时,使用90%权重的日均值 分析结果对应的新数据曲线跟10%权重的原始数据曲线加权叠加,从而避免日均值分析 在某些极端情况计算不准时对结果影响严重。
上述示例性实施例中,通过日均值分析法,可以得到业务属性数据不确定的点对应的 具体数据,为对该点进行预测和更新提供方法,使得后续可以基于业务属性数据确定处对 应的业务属性预测基线、业务属性数据的限制值和,业务属性数据的跳变值,使得后续可 以从多个维度对业务属性数据序列进行预测,通过预测基线、业务属性数据的限制值和业 务属性数据的跳变值,共同对具有周期性的数据进行预测和限定。
在一示例性实施例中,数据分析反馈方式,包括:
将异常数据进行展示,以使用户可以获取相关的异常数据,并基于异常数据进行标注 和反馈。在接收用户指示的误报反馈后,对其进行归因分析,考察异常判决时由哪些规则 所引起的。这些规则具有的可调参数,具体又分为在线可立即更新的参数和离线才可更新 的参数。在线可更新的参数直接写入到预测模型的数据中并且几乎立马生效,而离线才可 更新的参数需要写入到业务数据曲线的元信息中,等到下一次训练并生成新的模型时才能 生效。包括:(1)归因分析:接收到异常报警的人员可以观察数据形态,确定当前的数 据按照个人实际了解的情况是否为真的异常。若认为报警规则过于严格,可以提交反馈, 而接收到反馈的在线程序会自动执行参数调整算法。在调整之前,需要考察是哪条数据曲 线的哪个时间点导致了报警,进而确定算法将该点判定为异常的那些规则,从而做到归因 分析,有利于下述的针对性参数调整。(2)参数调整:不论报警原因为超出预测上下界还是超出1~n步差分上下界,都用相似的方法来放宽计算上下界的参数。具体而言,可 以减小上述计算单点KDE的上下分位参数ρ,也就是让界外分布值更小,对噪声容忍更 高。该参数需要写入离线训练所使用的参数表中,记录于数据元信息中在下次离线训练时 生效。此外,也可以增大上下边界在平滑后的偏置值δ,从而让曲线整体扩展一个固定的 大小。值得注意的是,该参数实际上可以直接写入训练结束后的模型库,从而几乎立即生 效,不必等下次离线训练。
上述示例性实施例中,可以根据最新业务属性数据对业务属性数据进行动态跟踪,并 将超出更新后的业务属性数据的限制值和业务属性数据的跳变值的业务属性数据,确定为 异常数据,以实现对有一定变化趋势的数据是否异常进行检测。还可以根据具体的反馈结 果调整业务属性预测方法中的参数,使业务属性预测方法可以不断完善。
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这 些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的 执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
图7是根据一示例性实施例示出的一种异常数据检测装置框图。参照图7,该装置包 括数据获取单元701、偏离度确定单元702、偏离度更新单元703和异常数据确定单元704:
数据获取单元701,被配置为执行获取业务属性数据序列,以及获取业务属性数据序 列对应的业务属性输出数据;其中,业务属性数据序列中的业务属性数据包括业务的访问 量或业务对象的关注数据,业务属性输出数据包括业务属性数据的预测值、业务属性数据 的限制值和第一业务属性偏离度,第一业务属性偏离度为预设数量的业务属性数据相对于 业务属性数据的预测值的偏离度,偏离度用于表征业务属性数据的实测值与预测值之间的 偏差;
偏离度确定单元702,被配置为执行获取业务属性数据序列中的最新业务属性数据对 应的第二业务属性偏离度;其中,第二业务属性偏离度,表示最新业务属性数据相对于业 务属性数据的预测值的偏离度;
偏离度更新单元703,被配置为执行基于第二业务属性偏离度对第一业务属性偏离度 进行更新;
异常数据确定单元704,被配置为执行用更新后的第一业务属性偏离度对业务属性数 据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确 定为异常数据。
在一示例性实施例中,偏离度更新单元703还被配置为执行:获取权重更新参数;其 中,权重更新参数为调节第二业务属性偏离度与第一业务属性偏离度的参数;按照权重更 新参数,用第二业务属性偏离度对第一业务属性偏离度进行更新。
在一示例性实施例中,业务属性输出数据包括业务属性数据的跳变值,跳变值表征两 个相邻点之间的差值;偏离度更新单元703还被配置为执行:获取业务属性数据序列中的 业务属性数据的变化速度;当变化速度大于或等于预设速度时,则按照第一预设比例或按 照预设数值,调大权重更新参数,得到第一权重更新参数;按照第二预设比例和业务属性 数据的跳变值,调整权重更新参数,得到第二权重更新参数;其中,第二权重更新参数与 业务属性数据的跳变值之间负相关。
在一示例性实施例中,权重更新参数包括第一权重和第二权重,第一权重表征第二业 务属性偏离度与前一第二业务属性偏离度之间的权重关系,第二权重表征第二业务属性偏 离度与第一业务属性偏离度之间的权重关系;偏离度更新单元703还被配置为执行:用第 一权重更新参数和/或第二权重更新参数,对第一权重和第二权重进行更新;按照更新后 的第一权重和第二权重,用第二业务属性偏离度对第一业务属性偏离度进行更新。
在一示例性实施例中,业务属性数据的限制值包括业务属性上限值和业务属性下限 值;异常数据确定单元704还被配置为执行:将业务属性上限值向上调整一个单位的第一 业务属性偏离度,得到更新后的业务属性上限值;将业务属性下限值向下调整一个单位的 第一业务属性偏离度,得到更新后的业务属性下限值。
在一示例性实施例中,业务属性输出数据包括业务属性数据的跳变值;异常数据确定 单元704还被配置为执行:若业务属性数据位于更新后的业务属性数据的限制值之内,则 检测业务属性数据与业务属性数据的跳变值之间的大小关系;若业务属性数据大于业务属 性数据的跳变值,则将业务属性数据确定为异常数据。
在一示例性实施例中,异常数据确定单元704还被配置为执行:检测第一业务属性偏 离度与预设阈值之间的大小关系;若业务属性数据对应的第一业务属性偏离度大于预设阈 值,则将业务属性数据确定为异常数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实 施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于异常数据检测的设备800的框图。例如, 设备800可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图8,设备800可以包括以下一个或多个组件:处理组件802、存储器804、电 源组件806、多媒体组件808、音频组件810、输入/输出(I/O)的接口812、传感器组件 814以及通信组件816。
处理组件802通常控制设备800的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以 方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例 包括用于在设备800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的 组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、 可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、 磁存储器、快闪存储器、磁盘或光盘。
电源组件806为设备800的各种组件提供电力。电源组件806可以包括电源管理系统, 一个或多个电源,及其他与为设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述设备800和用户之间的提供一个输出接口的屏幕。在一些 实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面 板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触 摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑 动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例 中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式, 如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每 个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克 风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由 通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信 号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以 是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为设备800提供各个方面的状态评估。 例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为设备800的显示器和小键盘,传感器组件814还可以检测设备800或设备800 一个组件的位置改变,用户与设备800接触的存在或不存在,设备800方位或加速/减速 和设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的 物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加 速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件816被配置为便于设备800和其他设备之间有线或无线方式的通信。设备800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G), 或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管 理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近 场通信(NFC)模块,以促进短程通信。
在示例性实施例中,设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可 编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上 述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包 括指令的存储器804,上述指令可由设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、 磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,所述计算机程序/指令被处理器 执行时实现上述任一项所述的异常数据检测方法本领域技术人员在考虑说明书及实践这 里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、 用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本 公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性 的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可 以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种异常数据检测方法,其特征在于,包括:
获取业务属性数据序列,以及获取所述业务属性数据序列对应的业务属性输出数据;其中,所述业务属性数据序列中的业务属性数据包括业务的访问量或业务对象的关注数据,所述业务属性输出数据包括业务属性数据的预测值、业务属性数据的限制值和第一业务属性偏离度,所述第一业务属性偏离度为预设数量的业务属性数据相对于业务属性数据的预测值的偏离度,偏离度用于表征所述业务属性数据的实测值与预测值之间的偏差;
获取所述业务属性数据序列中的最新业务属性数据对应的第二业务属性偏离度;其中,所述第二业务属性偏离度,表示所述最新业务属性数据相对于业务属性数据的预测值的偏离度;
基于所述第二业务属性偏离度对所述第一业务属性偏离度进行更新;
用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据。
2.根据权利要求1所述的异常数据检测方法,其特征在于,所述基于所述第二业务属性偏离度对所述第一业务属性偏离度进行更新,包括:
获取权重更新参数;其中,所述权重更新参数为调节所述第二业务属性偏离度与所述第一业务属性偏离度的参数;
按照所述权重更新参数,用所述第二业务属性偏离度对所述第一业务属性偏离度进行更新。
3.根据权利要求2所述的异常数据检测方法,其特征在于,所述业务属性输出数据包括业务属性数据的跳变值,跳变值表征两个相邻点之间的差值;
所述获取权重更新参数,包括:
获取所述业务属性数据序列中的业务属性数据的变化速度;
当所述变化速度大于或等于预设速度时,则按照第一预设比例或按照预设数值,调大所述权重更新参数,得到第一权重更新参数;
按照第二预设比例和所述业务属性数据的跳变值,调整所述权重更新参数,得到第二权重更新参数;其中,所述第二权重更新参数与所述业务属性数据的跳变值之间负相关。
4.根据权利要求3所述的异常数据检测方法,其特征在于,所述权重更新参数包括第一权重和第二权重,所述第一权重表征所述第二业务属性偏离度与前一第二业务属性偏离度之间的权重关系,所述第二权重表征所述第二业务属性偏离度与所述第一业务属性偏离度之间的权重关系;
所述按照所述权重更新参数,用所述第二业务属性偏离度对所述第一业务属性偏离度进行更新,包括:
用所述第一权重更新参数和/或第二权重更新参数,对所述第一权重和第二权重进行更新;
按照更新后的第一权重和第二权重,用所述第二业务属性偏离度对所述第一业务属性偏离度进行更新。
5.根据权利要求1所述的异常数据检测方法,其特征在于,所述业务属性数据的限制值包括业务属性上限值和业务属性下限值;
所述用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新,包括:
将所述业务属性上限值向上调整一个单位的所述第一业务属性偏离度,得到更新后的业务属性上限值;
将所述业务属性下限值向下调整一个单位的所述第一业务属性偏离度,得到更新后的业务属性下限值。
6.根据权利要求1或5所述的异常数据检测方法,其特征在于,所述业务属性输出数据包括业务属性数据的跳变值;
所述用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新之后,还包括:
若所述业务属性数据位于更新后的业务属性数据的限制值之内,则检测所述业务属性数据与所述业务属性数据的跳变值之间的大小关系;
若所述业务属性数据大于所述业务属性数据的跳变值,则将所述业务属性数据确定为所述异常数据。
7.一种异常数据检测装置,其特征在于,包括:
数据获取单元,被配置为执行获取业务属性数据序列,以及获取所述业务属性数据序列对应的业务属性输出数据;其中,所述业务属性数据序列中的业务属性数据包括业务的访问量或业务对象的关注数据,所述业务属性输出数据包括业务属性数据的预测值、业务属性数据的限制值和第一业务属性偏离度,所述第一业务属性偏离度为预设数量的业务属性数据相对于业务属性数据的预测值的偏离度,偏离度用于表征所述业务属性数据的实测值与预测值之间的偏差;
偏离度确定单元,被配置为执行获取所述业务属性数据序列中的最新业务属性数据对应的第二业务属性偏离度;其中,所述第二业务属性偏离度,表示所述最新业务属性数据相对于业务属性数据的预测值的偏离度;
偏离度更新单元,被配置为执行基于所述第二业务属性偏离度对所述第一业务属性偏离度进行更新;
异常数据确定单元,被配置为执行用更新后的第一业务属性偏离度对所述业务属性数据的限制值进行更新,并将位于更新后的业务属性数据的限制值之外的业务属性数据,确定为异常数据。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的异常数据检测方法。
9.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的异常数据检测方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的异常数据检测方法。
CN202110541339.2A 2021-05-18 2021-05-18 异常数据检测方法、装置、电子设备及存储介质 Active CN113347057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541339.2A CN113347057B (zh) 2021-05-18 2021-05-18 异常数据检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541339.2A CN113347057B (zh) 2021-05-18 2021-05-18 异常数据检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113347057A true CN113347057A (zh) 2021-09-03
CN113347057B CN113347057B (zh) 2022-11-22

Family

ID=77469174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541339.2A Active CN113347057B (zh) 2021-05-18 2021-05-18 异常数据检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113347057B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN115514679A (zh) * 2022-11-11 2022-12-23 浙江万胜智能科技股份有限公司 一种基于通信模块的异常来源监测方法及系统
CN116109008A (zh) * 2023-04-04 2023-05-12 支付宝(杭州)信息技术有限公司 一种业务执行的方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245047A (zh) * 2019-05-29 2019-09-17 阿里巴巴集团控股有限公司 时间序列异常检测方法、装置及设备
US20200065212A1 (en) * 2017-03-01 2020-02-27 Visa International Service Association Predictive anomaly detection framework
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN112348237A (zh) * 2020-10-23 2021-02-09 中海油能源发展股份有限公司 一种动态钻井数据异常趋势检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065212A1 (en) * 2017-03-01 2020-02-27 Visa International Service Association Predictive anomaly detection framework
CN110245047A (zh) * 2019-05-29 2019-09-17 阿里巴巴集团控股有限公司 时间序列异常检测方法、装置及设备
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN112348237A (zh) * 2020-10-23 2021-02-09 中海油能源发展股份有限公司 一种动态钻井数据异常趋势检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115158399A (zh) * 2022-06-14 2022-10-11 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN115158399B (zh) * 2022-06-14 2023-10-17 通号城市轨道交通技术有限公司 时序信号异常检测方法及系统
CN115514679A (zh) * 2022-11-11 2022-12-23 浙江万胜智能科技股份有限公司 一种基于通信模块的异常来源监测方法及系统
CN116109008A (zh) * 2023-04-04 2023-05-12 支付宝(杭州)信息技术有限公司 一种业务执行的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113347057B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN113347057B (zh) 异常数据检测方法、装置、电子设备及存储介质
CN113254877A (zh) 异常数据检测方法、装置、电子设备及存储介质
CN107644194B (zh) 提供监控数据的系统和方法
CN109800483A (zh) 一种预测方法、装置、电子设备和计算机可读存储介质
CN111538955A (zh) 货品销量的预测方法、装置及存储介质
CN111431727A (zh) 一种群组展示方法、装置、终端、服务器及系统
CN112035320B (zh) 业务监控方法、装置、电子设备及可读存储介质
US20140113596A1 (en) Methods and devices for prioritizing message threads
CN113099475B (zh) 网络质量检测方法、装置、电子设备及可读存储介质
CN109635029A (zh) 基于标签指标体系的数据处理方法、装置、设备及介质
JP7157683B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN113836241B (zh) 时序数据分类预测方法、装置、终端设备及存储介质
CN111143608A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN117934247B (zh) 基于时序分解的碳排放因子预测方法、装置、电子设备及存储介质
CN111125388B (zh) 多媒体资源的检测方法、装置及设备和存储介质
CN113723995A (zh) 一种确定营销任务的方法和装置
CN107203279B (zh) 关键词提示方法及设备
CN106407804B (zh) 设备状态的检测方法及装置
CN115034810A (zh) 数据分析方法及装置
CN113473222B (zh) 剪辑推荐方法、装置、电子设备、存储介质及程序产品
CN115983502B (zh) 数据处理方法、装置及介质
CN112162918B (zh) 应用程序的测试方法、装置及电子设备
CN113835797B (zh) 聚合页信息的展示方法、装置、电子设备和存储介质
CN110457560B (zh) 一种获得点击率的方法及相关装置
CN112307353B (zh) 数据的处理方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant