CN112612844A - 数据处理方法、装置、设备和存储介质 - Google Patents

数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112612844A
CN112612844A CN202011505022.5A CN202011505022A CN112612844A CN 112612844 A CN112612844 A CN 112612844A CN 202011505022 A CN202011505022 A CN 202011505022A CN 112612844 A CN112612844 A CN 112612844A
Authority
CN
China
Prior art keywords
data
alarm
service
similarity
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011505022.5A
Other languages
English (en)
Other versions
CN112612844B (zh
Inventor
邱文
曾可
卢道和
罗锶
黄耿冬
鲁东东
郭江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011505022.5A priority Critical patent/CN112612844B/zh
Publication of CN112612844A publication Critical patent/CN112612844A/zh
Application granted granted Critical
Publication of CN112612844B publication Critical patent/CN112612844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Alarm Systems (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置、设备和存储介质。该方法包括:获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;确定所述告警数据与所述第一业务数据的第一相似度;根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。本申请实施例对误报的告警数据进行过滤,使得告警数据的准确性较高。

Description

数据处理方法、装置、设备和存储介质
技术领域
本申请实施例涉及金融科技(Fintech)技术领域,尤其涉及一种数据处理方法、装置、设备和存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,业务数据分析技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
相关技术中,在对业务数据进行监控时,设置固定阈值和持续时长,如当前业务指标值与同比或环比基线对比超出阈值且满足持续时长,则视为异常并告警;其中,同比基线为之前预设时长内同一时刻的业务指标的均值,环比基线为预设时长内多个时刻的业务指标的均值。如图1所示,针对频繁且较大幅度波动的业务曲线来说,由于其有突增、下降等异动,因此误告率较高,即将业务曲线判别为异常的准确性较差。图1中,横坐标为时间,纵坐标为业务指标值,实曲线是当日趋势曲线,虚曲线是上日趋势曲线,两条曲线趋势一致,只是时间发生平移,应视为正常。但当日趋势曲线有突增、下降等异动,且跟之前相同时刻不一致,因此根据上述方案容易判别为异常。
发明内容
本申请实施例提供一种数据处理方法、装置、设备和存储介质,以提高对业务数据告警的准确性。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
确定所述告警数据与所述第一业务数据的第一相似度;
根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
第二方面,本申请实施例提供一种数据处理装置,包括:
获取模块,用于获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
所述获取模块,还用于根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
处理模块,用于确定所述告警数据与所述第一业务数据的第一相似度;
所述处理模块,还用于根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的方法。
本申请实施例提供的数据处理方法、装置、设备和存储介质,获取第一时间段内的告警数据,告警数据包括:至少一个第一时刻的业务指标值;进而获取第二时间段内的第一业务数据;第一业务数据包括多个第二时刻的业务指标值,其中,第二时间段为根据第一时间段和预设时间窗口确定的;进一步,确定告警数据与第一业务数据的第一相似度,通过该第一相似度,确定告警数据是否为误报,能够对误报的告警数据进行过滤,从而使得最终得到的告警数据的准确性较高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为相关技术中业务曲线示意图;
图2为本申请实施例提供的系统架构示意图;
图3为本申请实施例提供的告警数据曲线示意图;
图4是本申请实施例提供的数据处理方法的流程示意图;
图5为本申请实施例提供的告警数据曲线与业务数据曲线对比示意图;
图6是本申请实施例提供的计算距离原理示意图;
图7是本申请实施例提供的正态分布示意图;
图8是本申请实施例提供的数据处理装置的结构示意图;
图9是本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例涉及的部分词汇和应用场景进行介绍。
同比基线为之前预设时长内同一时刻的业务指标的均值,例如过去7天同一时刻的业务指标的均值;
同比=(当前业务指标值-同比基线)/同比基线×100%;
环比基线为预设时长内多个时刻的业务指标的均值,例如之前n个时刻的业务指标的均值,例如前5分钟(时刻粒度为分钟)的业务指标的均值;
环比持续=(当前业务指标值-环比基线)/环比基线×100%。
图2为本申请实施例提供的系统架构示意图。如图2所示,本申请实施例的系统架构中可以包括但不限于:电子设备11和服务器12。
其中,电子设备11和服务器12之间可以通过网络连接。
本申请实施例提供的方法可由一个电子设备如处理器执行相应的软件代码实现,也可由一个电子设备在执行相应的软件代码的同时,通过和服务器进行数据交互来实现。
相关技术中,在对业务数据进行监控时,设置固定阈值和持续时长,通过同比基线、同比、环比基线和环比持续等参数进行监控,如当前业务指标值与同比或环比基线对比超出阈值且满足持续时长,则视为异常并告警;如图1所示,对频繁且较大幅度波动的业务曲线误告率较高,即将业务曲线判别为异常的准确性较差,也即告警数据的准确性较差。
业务数据例如为交易耗时、时延等,随着时间推移,业务数据的曲线趋势基本不变,以下实施例中以交易耗时为例进行说明:
发明人在实现本申请实施例方案的过程中,考虑将业务数据的告警时段平移,使用相关技术中的方案再次判断业务数据是否异常即可,但实践中交易耗时曲线在平移后会发生一些形变(不存在原样平移的情况),肉眼看和正常曲线趋势“差不多”,例如图1中曲线,但平移后很可能会出现多个局部范围的告警,图1中曲线有突增、下降,上述方案中将业务曲线判别为异常的准确性较差。
进一步,考虑通过检测业务数据曲线的面积以及斜率的变化来判别告警是否无效:
时间(t0,td)区间的告警曲线面积S求解方法:
Figure BDA0002844627250000041
(xn,yn为n时刻的x,y坐标值)
曲线斜率D求解方法:
Figure BDA0002844627250000051
D表示n时刻的斜率,该时刻(n)与上一时刻(n-1)的y轴差值与x轴差值的比值。
其中,x轴表示时长,y轴表示业务指标值。
在实际应用中,业务数据曲线会有很多毛刺,每一个波峰/波谷的斜率都会剧烈变化,如图3所示,如果日常的曲线峰值在50,持续两分钟下降,现变成了峰值在100,持续一分钟下降的振荡曲线,相同时段内曲线的面积实际无大变化,虽然峰值有变化,但是由于面积没有变化,因为针对该业务数据曲线的告警会被认为是误告,另外因为斜率随着曲线的振荡也发生剧烈变化,比较斜率无法提供准确的对比结果。
因此,本申请实施例的方法,通过匹配两条曲线的相似度来确定告警是否为误报,两条曲线中一条为告警数据的曲线,一条为正常业务数据的曲线。在得到告警数据之后进行判别,过滤无效告警,提高了告警的准确性。其中,业务数据是根据告警数据的第一时间段以及预设时间窗口获取的。
下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4是本申请提供的数据处理方法一实施例的流程示意图。如图4所示,本实施例提供的方法,包括:
步骤101、获取第一时间段内的告警数据,告警数据包括:至少一个第一时刻的业务指标值。
具体的,获取第一时间段内的告警数据,第一时间段为起始时间a到结束时间b内的时间段,告警数据包括该第一时间段内至少一个第一时刻的业务指标值,业务指标值例如为交易耗时值。
告警数据例如表1所示,表1中第1列为第一时刻,格式为“年-月-日时:分”,按分钟粒度排序,第2列为耗时值,单位为ms(毫秒):
表1
Figure BDA0002844627250000052
Figure BDA0002844627250000061
以某业务开户交易耗时数据在2020-9-22 15:44分告警,当前耗时同比上升50%,且持续了10分钟为例说明。
告警时段,即第一时间段为2020-9-22 15:34-15:44,告警数据包括告警时段的耗时值,即15:34-15:44期间的耗时值,例如包括10个第一时刻的耗时值。告警时段的时长为10分钟。
步骤102、根据第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;第一业务数据包括:多个第二时刻的业务指标值。
具体的,获取用于对比的正常业务数据,即第二时间段内的第一业务数据,该第二时间段的起始时间、结束时间以及长度由第一时间段和预设时间窗口确定。
假设预设时间窗口为1小时,第一时间段为15:34-15:44,第二时间段例如为告警时段之前的时间段14:34-16:44,即第二时间段的起始时间为第一时间段的起始时间的前一小时,第二时间段的结束时间为第一时间段的结束时间的后一小时。
获取第二时间段内的第一业务数据,如获取2020-9-21 14:34-16:44期间的耗时值,第二时刻例如为2020-9-21 14:34、2020-9-21 14:35、2020-9-2114:36-直至2020-9-2116:44,例如相邻的第二时刻间隔为1分钟。
步骤103、确定告警数据与第一业务数据的第一相似度。
具体的,第一时间段内的告警数据,以及第二时间段内的第一业务数据都是时间序列上的离散数据,通过确定告警数据与第一业务数据的第一相似度,评估告警曲线与正常业务数据曲线的吻合程度,以判断是否为误告警,从而决定予以过滤或者保留告警。
第一相似度例如可以通过距离表示,例如欧氏距离、动态时间规准距离等。
步骤104、根据第一相似度以及相似度阈值,确定误报检测结果,误报检测结果用于指示告警数据是否为误报。
具体的,将步骤103中计算得到的第一相似度,与相似度阈值比较,确定误报检测结果,即确定该告警数据是否为误报,如果是误报,则对告警数据进行过滤,不进行告警,若不是误报,则对用户进行告警。
例如,告警数据与第一业务数据的越相似,则说明该告警数据是误报的可能性越大。
本实施例的方法,获取第一时间段内的告警数据,告警数据包括:至少一个第一时刻的业务指标值;进而获取第二时间段内的第一业务数据;第一业务数据包括多个第二时刻的业务指标值,其中,第二时间段为根据第一时间段和预设时间窗口确定的;进一步,确定告警数据与第一业务数据的第一相似度,通过该第一相似度,确定告警数据是否为误报,能够对误报的告警数据进行过滤,从而使得最终得到的告警数据的准确性较高。
在一实施例中,步骤103具体可以通过如下方式实现:
将所述第二时间段内的第一业务数据,划分为至少两个滑动窗口内的第一业务数据;所述滑动窗口的大小为根据所述第一时间段的时长确定的;
对于任一所述滑动窗口内的第一业务数据,确定所述滑动窗口内的第一业务数据与所述告警数据的第二相似度;
将至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,作为所述告警数据与所述第一业务数据的第一相似度。
具体的,由于第一时间段内的告警数据、第二时间段内的第一业务数据本质都是时间序列上的离散数据,例如可以利用动态时间规准算法思想,计算第一时间段内的告警数据到第二时间段内的第一业务数据间的相似度,即最短距离。根据最短距离评估告警数据曲线与正常业务数据曲线的吻合程度,以判断告警数据曲线是否为误告警。
滑动窗口的大小可以与第一时间段的长度相同,以第一时间段的长度为大小的滑动窗口,划分第二时间段内的第一业务数据,例如滑动窗口每次移位一个时刻,得到至少两个滑动窗口内的第一业务数据。其中滑动窗口的大小为第一时间段的时长,由第一时间段包括的第一时刻的数量决定,例如滑动窗口包括10个第一时刻。
分别计算每个滑动窗口内的第一业务数据与告警数据的第二相似度,例如为最短距离,然后取多个第二相似度中的最小值作为第一相似度。
例如,第二时间段内的第一业务数据存储在一个数组V2中,第一时间段内的告警数据存储在数组V1中,将数组V2划分为多个长度与数组V1相同的中间数组V_m,每次移位1位,假设数组V1包含10个元素,数组V2包含130个元素,得到120个长度为10的中间数组V_m[10],m的取值为1到120。即V_1[10]=[V2[1]…V2[10],V_2[10]=[V2[2]…V2[11],…,V_120[10]=[V2[120],…,V2[130]]。
分别计算每个V_m[10]与V1[10]的第二相似度,即最短距离,然后取多个最短距离中的最小值作为第一相似度,即第一时间段内的告警数据与第二时间段内的第一业务数据的最短距离D_current作为第一相似度。
上述实施方式中,将述第二时间段内的第一业务数据,划分为至少两个滑动窗口内的第一业务数据;对于任一滑动窗口内的第一业务数据,确定滑动窗口内的第一业务数据与所述告警数据的第二相似度,第一相似度为至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,确定的第一相似度较为准确,根据该第一相似度能够较为准确的判别告警数据是否为误报。
在一实施例中,若所述第一相似度小于或等于相似度阈值,则确定所述告警数据为误报,对告警数据进行过滤;
若所述第一相似度大于相似度阈值,则确定所述告警数据不是误报。
具体的,相似度阈值为根据历史业务数据之间的距离得到的,如果第一时间段内的告警数据与第二时间段内的第一业务数据的最短距离D_current比相似度阈值都小,则说明告警数据与第一业务数据较为相似,则告警数据为误报,可以对该告警数据进行过滤;若最短距离D_current大于相似度阈值,则说明告警数据与第一业务数据不相似,则告警数据不是误报,将该告警数据作为最终的告警数据,对用户进行告警,说明此时的业务数据较为异常。
在一实施例中,相似度阈值可通过如下方式实现:
获取多个第三时间段内的第二业务数据;所述第二业务数据包括:多个第三时刻的业务指标值;
确定任意两个所述第三时间段内各个第三时刻的业务指标值在最短距离路径上的第二累加距离;
将多个所述第二累加距离中的最大距离,作为所述相似度阈值。
具体的,第三时间段可以是之前与告警时段相同的时间段,即第一时间段之前的多天的相同时间段的业务指标值,第三时间段例如为2020-9-15 15:34-15:44、2020-9-1615:34-15:44、2020-9-17 15:34-15:44等等。
即,计算两两第三时间段各个第三时刻的业务指标值在最短距离路径上的最短累加距离,即第二累加距离,将多个最短累加距离中的最大距离,作为相似度阈值。例如将多个第三时间段的业务指标值分别存入长度为10的数组中,计算两两数组之间的最短累加距离,取最短累加距离中的最大值作为判断业务数据曲线是否正常的相似度阈值D_history。
如果D_current<=D_history,则认为当前告警数据为误报。
上述实施方式中,将正常的业务数据之间的最大距离作为阈值,可以较为准确的判别告警数据是否为误报。
在上述实施例的基础上,步骤“确定所述滑动窗口内的第一业务数据与所述告警数据的第二相似度”可以通过如下方式实现:
确定所述滑动窗口内各个第二时刻的业务指标值与第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,作为所述第二相似度。
本申请实施例,计算滑动窗口内各个第二时刻的业务指标值与第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,可通过如下方式:
以计算V1[10]到V_1[10]的距离为例说明,创建一个二维数组V[10][10],用于计算及临时存放V1[10]到V_1[10]的最短距离路径。其中基于告警数据和第一业务数据得知:
V1[10]=[35,70,69,59,80,85,79,65,59,66];
V_1[10]=[55,75,65,65,75,79,85,69,62,70];
V1[10]和V_1[10]对应曲线如图5所示,其中V_1[10]在时间轴上进行了平移,便于与V1[10]匹配。
如图6所示,纵轴表示第一时间段的告警数据,如耗时值V1[10],横轴表示待对比的第二时间段的正常业务数据,如耗时值V_1[10],计算最短距离路径及最短累加距离。从左上角的原点出发,每次往右、往下、往对角方向计算距离,此处以两者之差作为距离,选最短累加距离方向作为下一步,以此类推,直至到达右下角的终点。计算过程如下:
原点:V[0][0]=|V_1[0]-V1[0]|=|55-35|=20;
往右一步:V[1][0]=|V_1[1]-V1[0]|+V[0][0]=|75-35|+20=60;
往下一步:V[0][1]=|V_1[0]-V1[1]|+V[0][0]=|55-70|+20=35;
往对角一步:V[1][1]=|V_1[1]-V1[1]|+V[0][0]=|75-70|+20=25;
min(V[0][1],V[1][0],V[1][1])=V[1][1]=25,即第一步最小累加距离是25,由V[0][0]到V[1][1]。
往右一步:V[2][1]=|V_1[2]-V1[1]|+V[1][1]=|65-70|+25=30;
往下一步:V[1][2]=|V_1[1]-V1[2]|+V[1][1]=|75-69|+25=31;
往对角一步:V[2][2]=|V_1[2]-V1[2]|+V[1][1]=|65-69|+25=29;
min(V[2][1],V[1][2],V[2][2])=V[2][2]=29,即第二步最小累加距离是29,由V[1][1]到V[2][2]。
往右一步:V[3][2]=|V_1[3]-V1[2]|+V[2][2]=|65-69|+29=33;
往下一步:V[2][3]=|V_1[2]-V1[3]|+V[2][2]=|65-59|+29=35;
往对角一步:V[3][3]=V_1[3]-V1[3]|+V[2][2]=|65-69|+29=35或,V[3][3]=|V_1[3]-V1[3]|+V[3][2]-39;
min(V[3][2],V[2][3],V[3][3])=V[3][2]=33,即第三步最小累加距离是33,由V[2][2]到V[3][2]。
以此类推,最短距离路径为图6中的黑色加下划线数字的路径,最短累加距离为122。
上述实施方式中,确定滑动窗口内各个第二时刻的业务指标值与第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,作为第二相似度,最终将至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,作为第一相似度,确定的第一相似度较为准确,而且实现方式简单,根据该第一相似度能够较为准确的判别告警数据是否为误报。
在一实施例中,确定预设时间窗口可以通过如下方式实现:
根据预设模型,获取所述预设时间窗口;所述预设模型的输入参数为在所述预设时间窗口内存在与所述告警数据匹配的业务数据的概率,输出参数为所述预设时间窗口的长度。
具体的,因为例行的耗时曲线波动一般伴随着某些固定的业务活动,业务人员可根据经验判定在多大时段范围内的波动是合理的,即由经验设定预设时间窗口的大小。但随着业务发展变化越来越大,由人工评估难以长期保持准确性,维护该时间窗口参数的成本高,时间窗口过大增加系统计算负担,过小又无法很好的过滤无效的告警数据。因此需要系统具备自动设定时间窗口的能力。根据业务数据曲线的业务属性,例行的波动一般会在一个时间范围内波动,即该时段内,找到与告警数据的曲线吻合的业务数据的曲线概率最高,随着时间的推移找到的概率会越来越低,因此推测时间窗口大小与找到吻合曲线的概率大致符合正态分布(如图7所示):
Figure BDA0002844627250000111
其中p(x)是在前后x时间段找到匹配的业务数据曲线的概率,μ是样本均值,σ2是样本方差。时间窗口例如以分钟为单位,则p(x)表示在前后x分钟找到匹配的业务数据曲线的概率。
获取到上述模型输入参数p(x)的值的情况下,根据上述模型得到输出参数x的值,即预设时间窗口的长度。
图7中,横轴表示时间,纵轴表示样本数,例如前后10分钟找到匹配的业务数据曲线的概率最大,即样本数最多,则预设时间窗口的长度为10分钟。
根据正态分布的概率密度函数建立预设模型,利用该预设模型,确定预设时间窗口的大小。
结合正态分布的概率密度函数,期望将时间窗口设在95%概率可以找到匹配的业务数据曲线的位置,则转换成通过以下模型求x的问题:
Figure BDA0002844627250000112
其中,预设模型的参数μ和σ2已知,可以通过训练数据进行训练得到,输入参数为概率,例如设为95%,即在时间窗口为x的情况下,存在与告警数据曲线匹配的业务数据曲线的概率。
为了使得预设模型得到的时间窗口更为准确,可以通过大量的训练数据对预设模型的参数μ和σ2进行训练。
在一实施例中,预设模型为正态分布的概率密度函数模型,该方法还包括:
利用训练数据,对所述预设模型的参数进行训练,得到训练后的预设模型;训练数据包括:告警数据、业务数据以及在所述业务数据中存在与所述告警数据匹配的业务数据对应的时间窗口的长度;所述预设模型的参数包括:所述概率密度函数的均值和方差。
设数组X[i]用于存储各时间段i找到匹配的业务数据曲线的次数,初始值为0,例如,在告警时段的前/后5分钟位置找到了匹配的业务数据曲线,则将X[5]加一,以此类推,直至将全部训练数据样本遍历完毕。例如,训练数据样本的个数为1万,使用这1万个样本数据计算出μ和σ2的值为:
Figure BDA0002844627250000121
Figure BDA0002844627250000122
其中,n为X[x]数组的长度,例如为60,即确定告警时段前后1分钟、2分钟、…、60分钟位置是否存在匹配的业务数据曲线,
结合正态分布的概率密度函数,期望将时间窗口设在95%概率可以找到匹配的业务数据曲线的位置,则转换成通过以下模型求x的问题:
Figure BDA0002844627250000123
即当前最佳的时间窗口设在告警时段的前后x分钟。
在实际应用中,可以根据实际的告警数据不断动态更新X[i]及时间窗口参数值μ、σ2、x。
上述实施方式中,通过正态分布的概率密度函数建立的预设模型,获取时间窗口较为准确,使得获取的第一业务数据较为准确,进而可以较为准确的确定告警数据是否为误报。
在一实施例中,该方法包括如下步骤:
步骤1、获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
步骤2、根据预设模型,获取所述预设时间窗口;所述预设模型的输入参数为在所述预设时间窗口内存在与所述告警数据匹配的业务数据的概率,输出参数为所述预设时间窗口的长度;
步骤3、根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
步骤4、将所述第二时间段内的第一业务数据,划分为至少两个滑动窗口内的第一业务数据;所述滑动窗口的大小为根据所述第一时间段内包括的第一时刻的数量确定的;
步骤5、对于任一所述滑动窗口内的第一业务数据,确定所述滑动窗口内各个第二时刻的业务指标值与所述第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,作为所述第二相似度;
步骤6、将至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,作为所述告警数据与所述第一业务数据的第一相似度;
步骤7、获取多个第三时间段内的第二业务数据;所述第二业务数据包括:多个第三时刻的业务指标值;
步骤8、确定任意两个所述第三时间段内各个第三时刻的业务指标值在最短距离路径上的第二累加距离;
步骤9、将多个所述第二累加距离中的最大距离,作为所述相似度阈值;
步骤10、根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
其中,若所述第一相似度小于或等于相似度阈值,则确定所述告警数据为误报。
本实施例的方法,确定告警数据与第一业务数据的第一相似度,其中,该第一相似度为根据上述过程计算得到的距离确定的,通过该第一相似度,确定告警数据是否为误报,能够对误报的告警数据进行过滤,从而使得最终得到的告警数据的准确性较高。
图8为本申请提供的数据处理装置一实施例的结构图,如图8所示,本实施例的数据处理装置,包括:
获取模块110,用于获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
所述获取模块110,还用于根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
处理模块111,用于确定所述告警数据与所述第一业务数据的第一相似度;
所述处理模块111,还用于根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
在一种可能的实现方式中,处理模块111具体用于:
将所述第二时间段内的第一业务数据,划分为至少两个滑动窗口内的第一业务数据;所述滑动窗口的大小为根据所述第一时间段的长度确定的;
对于任一所述滑动窗口内的第一业务数据,确定所述滑动窗口内的第一业务数据与所述告警数据的第二相似度;
将至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,作为所述告警数据与所述第一业务数据的第一相似度。
在一种可能的实现方式中,处理模块111具体用于:
确定所述滑动窗口内各个第二时刻的业务指标值与所述第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,作为所述第二相似度。
在一种可能的实现方式中,处理模块111具体用于:
若所述第一相似度小于或等于相似度阈值,则确定所述告警数据为误报。
在一种可能的实现方式中,处理模块111还用于:
获取多个第三时间段内的第二业务数据;所述第二业务数据包括:多个第三时刻的业务指标值;
确定任意两个所述第三时间段内各个第三时刻的业务指标值在最短距离路径上的第二累加距离;
将多个所述第二累加距离中的最大距离,作为所述相似度阈值。
在一种可能的实现方式中,处理模块111具体用于:
根据预设模型,获取所述预设时间窗口;所述预设模型的输入参数为在所述预设时间窗口内存在与所述告警数据匹配的业务数据的概率,输出参数为所述预设时间窗口的长度。
在一种可能的实现方式中,所述预设模型为正态分布的概率密度函数模型,处理模块111还用于:
利用训练数据,对所述预设模型的参数进行训练,得到训练后的预设模型;训练数据包括:告警数据、业务数据以及在所述业务数据中存在与所述告警数据匹配的业务数据对应的时间窗口的长度;所述预设模型的参数包括:所述概率密度函数的均值和方差。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本申请提供的电子设备实施例的结构图,如图9所示,该电子设备包括:
处理器120,以及,用于存储处理器120的可执行指令的存储器121。
可选的,还可以包括:通信接口122,用于实现与其他设备的通信。
上述部件可以通过一条或多条总线进行通信。
其中,处理器120配置为经由执行所述可执行指令来执行前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,此处不再赘述。
本申请实施例中还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法实施例中对应的方法,其具体实施过程可以参见前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例中任一项所述的方法,其具体实施过程可以参见前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
确定所述告警数据与所述第一业务数据的第一相似度;
根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
2.根据权利要求1所述的方法,其特征在于,所述确定所述告警数据与所述第一业务数据的第一相似度,包括:
将所述第二时间段内的第一业务数据,划分为至少两个滑动窗口内的第一业务数据;所述滑动窗口的大小为根据所述第一时间段的时长确定的;
对于任一所述滑动窗口内的第一业务数据,确定所述滑动窗口内的第一业务数据与所述告警数据的第二相似度;
将至少两个所述滑动窗口内的第一业务数据与所述告警数据的第二相似度中的最小值,作为所述告警数据与所述第一业务数据的第一相似度。
3.根据权利要求2所述的方法,其特征在于,所述确定所述滑动窗口内的第一业务数据与所述告警数据的第二相似度,包括:
确定所述滑动窗口内各个第二时刻的业务指标值与所述第一时间段内的各个第一时刻的业务指标值在最短距离路径上的第一累加距离,作为所述第二相似度。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一相似度以及相似度阈值,确定误报检测结果,包括:
若所述第一相似度小于或等于相似度阈值,则确定所述告警数据为误报。
5.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
获取多个第三时间段内的第二业务数据;所述第二业务数据包括:多个第三时刻的业务指标值;
确定任意两个所述第三时间段内各个第三时刻的业务指标值在最短距离路径上的第二累加距离;
将多个所述第二累加距离中的最大距离,作为所述相似度阈值。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据之前,还包括:
根据预设模型,获取所述预设时间窗口;所述预设模型的输入参数为在所述预设时间窗口内存在与所述告警数据匹配的业务数据的概率,输出参数为所述预设时间窗口的长度。
7.根据权利要求6所述的方法,其特征在于,所述预设模型为正态分布的概率密度函数模型;所述方法还包括:
利用训练数据,对所述预设模型的参数进行训练,得到训练后的预设模型;训练数据包括:告警数据、业务数据以及在所述业务数据中存在与所述告警数据匹配的业务数据对应的时间窗口的长度;所述预设模型的参数包括:所述概率密度函数的均值和方差。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取第一时间段内的告警数据,所述告警数据包括:至少一个第一时刻的业务指标值;
所述获取模块,还用于根据所述第一时间段和预设时间窗口,获取第二时间段内的第一业务数据;所述第一业务数据包括:多个第二时刻的业务指标值;
处理模块,用于确定所述告警数据与所述第一业务数据的第一相似度;
所述处理模块,还用于根据所述第一相似度以及相似度阈值,确定误报检测结果,所述误报检测结果用于指示所述告警数据是否为误报。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。
CN202011505022.5A 2020-12-18 2020-12-18 数据处理方法、装置、设备和存储介质 Active CN112612844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505022.5A CN112612844B (zh) 2020-12-18 2020-12-18 数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505022.5A CN112612844B (zh) 2020-12-18 2020-12-18 数据处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112612844A true CN112612844A (zh) 2021-04-06
CN112612844B CN112612844B (zh) 2024-02-09

Family

ID=75240543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505022.5A Active CN112612844B (zh) 2020-12-18 2020-12-18 数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112612844B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115473784A (zh) * 2022-09-06 2022-12-13 中国银联股份有限公司 一种确定无效告警的方法及装置
WO2023039973A1 (zh) * 2021-09-17 2023-03-23 上海观安信息技术股份有限公司 异常误报的处理方法及装置、存储介质、终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160073465A (ko) * 2014-12-16 2016-06-27 주식회사 에스원 침입감지 시스템
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN110769068A (zh) * 2019-10-30 2020-02-07 软通动力信息技术有限公司 一种告警消息的生成方法、装置、服务器和存储介质
CN110995506A (zh) * 2019-12-19 2020-04-10 腾讯云计算(北京)有限责任公司 告警量异常的定位方法、装置、存储介质和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160073465A (ko) * 2014-12-16 2016-06-27 주식회사 에스원 침입감지 시스템
CN108572907A (zh) * 2018-01-25 2018-09-25 北京金山云网络技术有限公司 一种告警方法、装置、电子设备及计算机可读存储介质
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN110769068A (zh) * 2019-10-30 2020-02-07 软通动力信息技术有限公司 一种告警消息的生成方法、装置、服务器和存储介质
CN110995506A (zh) * 2019-12-19 2020-04-10 腾讯云计算(北京)有限责任公司 告警量异常的定位方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田志宏;张永铮;张伟哲;李洋;叶建伟;: "基于模式挖掘和聚类分析的自适应告警关联", 计算机研究与发展, no. 08, pages 66 - 77 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023039973A1 (zh) * 2021-09-17 2023-03-23 上海观安信息技术股份有限公司 异常误报的处理方法及装置、存储介质、终端
CN115473784A (zh) * 2022-09-06 2022-12-13 中国银联股份有限公司 一种确定无效告警的方法及装置

Also Published As

Publication number Publication date
CN112612844B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111459778A (zh) 运维系统异常指标检测模型优化方法、装置及存储介质
CN106657057B (zh) 反爬虫系统及方法
US7133808B2 (en) System and method for analyzing data streams
CN113518011A (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN108809734B (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
CN113868006B (zh) 时间序列的检测方法、装置、电子设备及计算机存储介质
CN113228006A (zh) 检测连续事件中的异常的装置和方法及其计算机程序产品
CN113688957A (zh) 一种基于多模型融合的目标检测方法、装置、设备及介质
CN113568960B (zh) 物联网数据实时分析方法、系统及计算机可读存储介质
CN111783743A (zh) 一种图像聚类方法及装置
CN113992340A (zh) 用户异常行为识别方法、装置、设备、存储介质和程序
CN109308225B (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN111949496B (zh) 一种数据检测方法及装置
CN112612844A (zh) 数据处理方法、装置、设备和存储介质
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
CN108762908B (zh) 系统调用异常检测方法及装置
CN112651172B (zh) 一种降雨峰值类型划分方法、装置、设备和存储介质
CN115514620B (zh) 一种异常检测的方法和云网络平台
CN116362782A (zh) 基于大数据分析的用户兴趣点识别方法及系统
CN112950687B (zh) 一种确定跟踪状态的方法、装置、存储介质和电子设备
CN114186646A (zh) 区块链异常交易识别方法及装置、存储介质及电子设备
CN113435464B (zh) 异常数据检测方法、装置、电子设备及计算机存储介质
CN114707420A (zh) 一种信贷欺诈行为识别方法、装置、设备及存储介质
CN113515684A (zh) 一种异常数据检测方法及装置
CN111832815A (zh) 科研热点预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant