CN114978863A - 一种数据处理方法、装置、计算机设备及可读存储介质 - Google Patents
一种数据处理方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN114978863A CN114978863A CN202210537982.2A CN202210537982A CN114978863A CN 114978863 A CN114978863 A CN 114978863A CN 202210537982 A CN202210537982 A CN 202210537982A CN 114978863 A CN114978863 A CN 114978863A
- Authority
- CN
- China
- Prior art keywords
- data
- sub
- date
- target
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000002159 abnormal effect Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 description 5
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
- H04L41/0622—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明涉及异常数据处理领域,尤其涉及一种数据处理方法、装置、计算机设备及可读存储介质。包括:获取异常上报数据;确定异常上报数据对应的缺失数据类型和第一日期;根据第一日期确定目标时间段;根据缺失数据类型和目标时间段,获取至少一个目标基线数据;根据至少一个目标基线数据确定补偿基线数据;根据补偿基线数据对异常上报数据进行补偿。本申请通过使用正常使用时段的目标基线数据对异常上报数据进行补偿,可以使异常上报数据转变为正常的上报数据,由此,可以减少对由于非网络攻击导致的异常上报数据的告警次数,进而减少不准确告警的次数。
Description
技术领域
本发明涉及异常数据处理领域,尤其涉及一种数据处理方法、装置、计算机设备及可读存储介质。
背景技术
随着信息化的不断发展和深入,信息技术(Information Technology,IT)系统功能日益强大,涉及的信息种类也日益增多,这导致现有IT系统也逐渐复杂。为及时发现IT系统故障、识别潜在风险及安全隐患,通常需要对IT系统中的数据进行监控,以检测异常行为。
相关技术采用基线比对的方式进行异常行为检测,具体为:通过将当天统计数据得出的待检上报数据,比对前N天的基准基线数据,确定出符合异常行为阈值的待检上报数据后进行告警。
但是,相关技术中存在大量误报警的问题。
发明内容
有鉴于此,本发明提供一种数据处理方法、装置、计算机设备及可读存储介质,至少部分解决现有技术中存在的大量误报警的问题。
根据本公开实施例的第一方面,提供一种数据处理方法,包括:
获取异常上报数据;
确定所述异常上报数据对应的缺失数据类型和第一日期;
根据所述第一日期确定目标时间段;
根据所述缺失数据类型和所述目标时间段,获取至少一个目标基线数据,所述目标基线数据属于所述缺失数据类型;
根据至少一个目标基线数据确定补偿基线数据;
根据所述补偿基线数据对所述异常上报数据进行补偿。
作为本发明一种可能的实现方式,所述根据所述缺失数据类型和所述目标时间段,获取至少一个目标基线数据,包括:
确定所述目标时间段内包含的至少一个第二日期;
获取每一所述第二日期对应的上报数据中属于所述缺失数据类型的目标基线数据。
作为本发明一种可能的实现方式,所述目标时间段包括至少一个子时间段;
所述根据所述缺失数据类型和所述目标时间段,获取至少一个目标基线数据,包括:
根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据。
作为本发明一种可能的实现方式,所述子时间段包括至少一个第三日期;
所述根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据,包括:
确定每一所述子时间段对应的至少一个第三日期;
获取每一所述第三日期对应的上报数据中属于所述缺失数据类型的第一子目标基线数据;
根据每一所述子时间段对应的所述第一子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据。
作为本发明一种可能的实现方式,每一所述子时间段均包括多个第四日期,且所述第四日期的数量大于设定阈值;
所述根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据,包括:
确定每一所述子时间段中对应的多个第四日期;
获取每一所述第四日期对应的上报数据中属于所述缺失数据类型且符合采集规则的第二子目标基线数据;
根据每一所述子时间段对应的所述第二子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据。
作为本发明一种可能的实现方式,多个所述第二子目标基线数据符合正态分布;
根据每一所述子时间段对应的所述第二子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据,包括:
根据每一所述子时间段对应的所述第二子目标基线数据,确定该子时间段对应的正态分布图;
获取每一所述子时间段对应的正态分布图中处于(μ-3σ,μ+3σ)区间内的至少一个所述第二子目标基线数据;
根据每一所述子时间段对应的所述第二子目标基线数据,确定每一所述子时间段对应的所述目标基线数据。
作为本发明一种可能的实现方式,在所述根据第一日期确定目标时间段之前,所述方法还包括:
确定所述第一日期是否具有设定属性;
若具有,则所述根据第一日期确定目标时间段,包括:
根据所述第一日期,确定第七日期和第八日期;
判断所述第七日期和所述第八日期是否具有设定属性,得到判断结果,所述第七日期早于所述第一日期,且与所述第一日期相邻,所述第八日期晚于所述第一日期,且与所述第一日期相邻;
根据所述判断结果确定所述目标时间段。
作为本发明一种可能的实现方式,所述根据至少一个目标基线数据确定补偿基线数据,包括:
根据采集时间特征,确定每一目标基线数据中的有效基线数据;
根据至少一个所述有效基线数据,确定补偿基线数据。
根据本公开实施例的第二方面,提供一种数据处理装置,包括:
第一获取模块,用于获取异常上报数据;
第一确定模块,用于确定所述异常上报数据对应的缺失数据类型和第一日期;
第二确定模块,用于根据第一日期确定目标时间段;
第二获取模块,用于根据所述缺失数据类型和所述目标时间段,获取至少一个与所述缺失数据类型对应的目标基线数据;
第三确定模块,用于根据至少一个目标基线数据确定补偿基线数据;
补偿模块,用于根据所述补偿基线数据对所述异常上报数据进行补偿。
根据本公开实施例的第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的数据处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本申请通过至少一个目标基线数据来确定出补偿基线数据,将补偿基线数据预估推定为第一日期应该对应的正常的上报数据,并用对应的补偿基线数据对异常上报数据进行替换补偿。由此,可以将由于节假日、断电等正常情况导致的异常上报数据替换转变为正常的上报数据,进而,可以减少对由于非网络攻击导致的异常上报数据的告警次数,进而减少不准确告警的次数。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一实施例中一种数据处理方法的流程示意图;
图2为本申请一实施例中一种数据处理装置的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
根据本发明的一个方面,如图1所示,提供了一种数据处理方法,包括:
步骤S10:获取异常上报数据。
具体的,上报数据可以从对应的网络系统中每天的上报日志信息中获得,具体的上报数据由对应的防火墙数据每天上报日志信息中获得。通常由于节假日或长时间断电会导致网络中的活动有明显的下降,所以对应日期的上报数据变动较大,与正常日期的上报数据相比有较大的差异。所以,异常上报数据也即节假日或长时间断电对应的日期的上报数据。
在获取异常上报数据之前,可按照如下方法判定出异常上报数据。
步骤S101:获取待测日期对应的待检上报数据。
通常为在每天的固定时间对当天的上报日志信息中的上报数据进行统计,统计完成后就可以得到当天的待检上报数据,也可以为对指定的待测日期的上报数据进行统计,以生成对应的待检上报数据。
步骤S102:获取在待测日期前N天对应的历史上报数据。
通常获取待测日期前N天每一天对应的上报数据作为历史上报数据,通过多个历史上报数据来确定出对比的基准也即基准基线数据,N取大于等于一的自然数,如前两天或前三天。
步骤S103:根据历史上报数据,确定上报数据的正常变化范围。
以前三天的历史上报数据为例,可以通过获得到的多组历史上报数据中每一的子项上报数据的最大值及最小值来确定出,每一子项上报数据对应的正常数据范围。其中,上报数据由多个子项上报数据组成,子项上报数据为一个子项对应的上报数据,如:一个子项为A网站的访问次数,则对应的子项上报数据可以为:A网站的访问50次。由此,以前三天的历史上报数据(A网站的访问次数)可以确定出该子项上报数据对应的正常变化范围,如45-60次。
步骤S104:根据上报数据的正常变化范围,确定待检上报数据是否为异常上报数据。
具体的,用待检上报数据中的每一子项上报数据与得到的上报数据的正常变化范围中对应的子项上报数据的正常数据范围进行对比,如果待检上报数据中的至少一个子项上报数据没有处于对应的子项上报数据的正常数据范围内,则该子项上报数据为异常子项上报数据,对应的待检上报数据为异常上报数据。
步骤S20:确定异常上报数据对应的缺失数据类型和第一日期。
通常会为每一个子项上报数据提前设置对应的类型标签,通过确定出异常上报数据中所有异常子项上报数据对应的类型标签,可以确定出异常上报数据对应的缺失数据类型,通过缺失数据类型来确定出后期要进行补偿替换的数据对象。
另外,待检上报数据可能是由多天的上报数据组成的集合,在进行异常检测时,可能只有其中的某一天的上报数据存在异常,存在异常的这一天对应的日期也即第一日期。例如:待检上报数据是由2021年3月9日至2021年3月11日这3天的上报数据组成的集合,其中,只有2021年3月10日的上报数据存在异常,则2021年3月10日为第一日期。
当待检上报数据是由一天的上报数据组成的,当该天的上报数据存在异常时,则该天对应的日期也即第一日期。
步骤S30:根据第一日期确定目标时间段。
具体的,根据第一日期的情况来确定目标时段,通过目标时段内产生的上报数据来确定补偿基线数据。通常目标时段可以为单独的某一天或者某几天,也可以是连续的几天,并且尽量保证该目标时间段内对应的上报数据均为正常的上报数据。
步骤S40:根据缺失数据类型和目标时间段,获取至少一个与缺失数据类型对应的目标基线数据。
根据确定的缺失数据类型和目标时间段即可获取到对应的目标基线数据,目标基线数据中可以为仅含有缺失数据类型所对应的数据,由此可以减少数据的处理量。
步骤S50:根据至少一个目标基线数据确定补偿基线数据。
若只获取到一个目标基线数据,则将该目标基线数据确定为补偿基线数据。
若获取到两个或更多的目标基线数据,则可以求取多个目标基线数据的平均数来确定补偿基线数据。当然也可以求取多个目标基线数据的众数、中位数、最大值或最小值等特征值来确定补偿基线数据
步骤S60:根据补偿基线数据对异常上报数据进行补偿。
将补偿基线数据中的子项上报数据补充至异常上报数据对应的异常子项上报数据中。或者,
用补偿基线数据中的子项上报数据替换异常上报数据对应的异常子项上报数据。
可以根据具体的数据的缺失情况选择补充或者替换的方式进行补偿。
本实施例通过至少一个目标基线数据来确定出补偿基线数据,将补偿基线数据预估推定为第一日期应该对应的正常的上报数据,并用对应的补偿基线数据对异常上报数据进行替换补偿。由此,可以将由于节假日、断电等正常情况导致的异常上报数据替换转变为正常的上报数据,进而,可以减少对由于非网络攻击导致的异常上报数据的告警次数,进而减少不准确告警的次数。
作为本发明一种可能的实施方式,步骤S40:根据缺失数据类型和目标时间段,获取至少一个目标基线数据,包括:
步骤S410:确定目标时间段内包含的至少一个第二日期。
步骤S411:获取每一第二日期对应的上报数据中属于缺失数据类型的目标基线数据。
具体地,目标时间段可以包含一个或多个第二日期。由此,来获得对应的目标基线数据。
当第一日期为单独的某一天时,可以直接选取至少一个正常的日期对应的目标基线数据,作为确定补偿基线数据的依据。本实施例中目标基线数据的获取方式简单灵活,数据处理量小,可以适用于大部分对异常上报数据的处理情况中。
作为本发明一种可能的实施方式,目标时间段包括至少一个子时间段。
步骤S40:根据缺失数据类型和目标时间段,获取至少一个目标基线数据,包括:
步骤S420:根据缺失数据类型和至少一个子时间段,分别获取每一子时间段对应的目标基线数据。
具体地,目标时间段包括至少一个子时间段,通过具有更多日期的子时间段来确定目标基线数据,可以增加获取到的目标基线数据的数据量,可以提高通过目标基线数据最后确定的补偿基线数据的准确性。
一方面:通过在每个子时间段内选取多个日期来提高补偿基线数据的准确性。由于在获取到的目标基线数据中可能会存在异常的数据,所以,通过多个目标基线数据进行均值计算或者取众数时,可以减小异常数据对最终结果的影响,由此可以提高补偿基线数据的准确性。
另一方面,还通过设置多个子时间段,来进一步提高补偿基线数据的准确性。也即,即使有某一个子时间段对应的目标基线数据存在异常的情况,也可以在后续计算中通过其他几个正常的子时间段对应的目标基线数据来降低异常的目标基线数据对最终结果的影响,进而可以进一步提高补偿基线数据的准确性。
作为本发明一种可能的实施方式,子时间段包括至少一个第三日期。
步骤S420:根据缺失数据类型和至少一个子时间段,分别获取每一子时间段对应的目标基线数据,包括:
步骤S4201:确定每一子时间段对应的至少一个第三日期。
步骤S4202:获取每一第三日期对应的上报数据中属于缺失数据类型的第一子目标基线数据。
步骤S4203:根据每一子时间段对应的第一子目标基线数据,分别确定每一子时间段对应的目标基线数据。
在确定每一子时间段中的第三日期时,可以对所选的子时间段中的所有的日期进行随机选取或者以固定间隔进行选取。由此,可以根据所选定的子时间段所包括的时间特点以及对应的缺失的子项上报数据的特点,对第三日期进行适应性的挑选。如某一缺失的子项上报数据具有偶数日期和奇数日期有不同的表现,所以在进行第三日期的挑选时,需要按照奇数日期或者偶数日期进行选取。
本实施例中第三日期的选取可以根据子时间段所包括的时间特点以及对应的缺失的子项上报数据的特点来按照预定规则进行第三日期的选取,由此,可以使得选取的目标基线数据更加贴合异常上报数据的特点,由此,可以提高补偿基线数据的准确性。
作为本发明一种可能的实施方式,每一子时间段均包括多个第四日期,且第四日期的数量大于设定阈值。
步骤S420:根据缺失数据类型和至少一个子时间段,分别获取每一子时间段对应的目标基线数据,包括:
步骤S4204:确定每一子时间段中对应的多个第四日期。
步骤S4205:获取每一第四日期对应的上报数据中属于缺失数据类型且符合采集规则的第二子目标基线数据。
步骤S4206:根据每一子时间段对应的第二子目标基线数据,分别确定每一子时间段对应的目标基线数据。
本实施例中每一子时间段中包括超过设定阈值数量的第四日期,该多个第四日期可以为随机获取的,也可以为连续的日期,如取连续一个星期对应的日期或者取连续一个月对应的日期。
由此,通过增加第四日期数据量,来得到更多的第二子目标基线数据,再通过对多个第二子目标基线数据进行处理,如取平均数,来得到每一子时间段对应的目标基线数据。由此,可以减小在取到异常的第二子目标基线数据后,对计算最终目标基线数据结果的影响,由此可以使得到的每一子时间段对应的目标基线数据更加准确,进而提高由目标基线数据确定出来的补偿基线数据准确性。
作为本发明一种可能的实施方式,多个第二子目标基线数据符合正态分布。
步骤S4206:根据每一子时间段对应的第二子目标基线数据,分别确定每一子时间段对应的目标基线数据,包括:
步骤S42061:根据每一子时间段对应的第二子目标基线数据,确定该子时间段对应的正态分布图。
步骤S42062:获取每一子时间段对应的正态分布图中处于(μ-3σ,μ+3σ)区间内的至少一个第二子目标基线数据。
步骤S42063:根据每一子时间段对应的第二子目标基线数据,确定每一子时间段对应的目标基线数据。
本实施例中,当多个第二子目标基线数据符合正态分布时,会在对应的正态分布图中处于(μ-3σ,μ+3σ)区间内选取第二子目标基线数据,由此,可以进一步保证选取的第二子目标基线数据的随机性。由此使得每个第二子目标基线数据有相等的机会被抽取,在此基础上,有相当大的可能性使得样本数据保持与总体数据有相同的结构,或者说具有最大的可能使得总体数据的某些特征在样本数据中得以表现。所以它能够在最大可能性上减少随机误差。由此可以使得到的每一子时间段对应的目标基线数据更加准确,进而提高由目标基线数据确定出来的补偿基线数据准确性。
作为本发明一种可能的实施方式,目标时间段包括第一子时间段和第二子时间段。
步骤S40:根据缺失数据类型和目标时间段,获取至少一个目标基线数据,包括:
步骤S430:确定第一子时间段对应的至少一个第五日期。
步骤S431:获取每一第五日期对应的上报数据中属于缺失数据类型且符合采集规则的第三子目标基线数据。
步骤S432:根据每一第五日期对应的第三子目标基线数据,确定第一子时间段对应的目标基线数据。
步骤S433:确定第二子时间段对应的至少一个第六日期。
步骤S434:获取每一第六日期对应的上报数据中属于缺失数据类型且符合采集规则的的第四子目标基线数据。
步骤S435:根据每一第六日期对应的第四子目标基线数据,确定第二子时间段对应的目标基线数据。
本实施例通过第一子时间段及第二子时间段分别确定出的两个目标基线数据,再通过两个目标基线数据来确定补偿基线数据。通常第一子时间段及第二子时间段与第一日期前后相邻,当发现存在一个日期的对应的上报数据存在异常要对其进行补偿时,如果在第一日期前后均存在正常的上报数据,则可以通过分别获取第一日期前后相邻的第一子时间段及第二子时间段的上报数据来对第一日期的上报数据进行补偿。由此,可以通过获取分别在第一日期前后的第一子时间段及第二子时间段的目标基线数据来确定补偿基线数据,可以提高获得的补偿基线数据的准确性。
另外,在第一子时间段及第二子时间段分别与第一日期前后相邻的情况下,也可以根据异常上报数据的具体分布情况来选择子时间段。如仅在第一日期前的日期中存在正常的上报数据,则仅使用早于第一日期的第一子时间段的上报数据对第一日期的异常上报数据进行补偿。
如仅在第一日期后的日期中存在正常的上报数据,则仅使用晚于第一日期的第二子时间段的上报数据对第一日期的异常上报数据进行补偿。
作为本发明一种可能的实施方式,在步骤S30:根据第一日期确定目标时间段之前,方法还包括:
步骤S301:确定第一日期是否具有设定属性。
若具有,则步骤S30:根据第一日期确定目标时间段,包括:
步骤S31:根据第一日期,确定第七日期和第八日期。
步骤S32:判断第七日期和第八日期是否具有设定属性,得到判断结果,第七日期早于第一日期,且与第一日期相邻,第八日期晚于第一日期,且与第一日期相邻。
步骤S33:根据判断结果确定目标时间段。
在第七日期具有设定属性,设定属性可以为节日属性,且第八日期不具有设定属性的情况下,将第八日期及晚于第八日期的时间确定为目标时间段。如第七日期为周六,第一日期为周日,第八日期为周一,则在第七日期具有设定属性,且第八日期不具有设定属性,所以可以将周一或周一以后的周二、周三或周四确定为目标时间段。
在第七日期及第八日期均具有设定属性的情况下,重新确定新的第七日期及第八日期,并再次执行步骤S32及步骤S33。
在第七日期不具有设定属性,且第八日期具有设定属性的情况下,将第七日期或第七日期之前的时间确定为目标时间段。如第七日期为周五,第一日期为周六,第八日期为周日,则在第七日期不具有设定属性,且第八日期具有设定属性,所以可以将前一周的周五或周五之前的周四、周三或周二确定为目标时间段。
在第七日期与第八日期均不具有设定属性的情况下,将第七日期或第七日期之前的时间和/或第八日期及晚于第八日期的时间确定为目标时间段。
节假日的上报数据通常存在更高的可能性为异常上报数据。通过本实施例的方式来确定目标时间段,可以避开节假日的上报数据,由此,可以提高获得的补偿基线数据的准确性。
作为本发明一种可能的实施方式,步骤S50:根据至少一个目标基线数据确定补偿基线数据,包括:
步骤S501:根据采集时间特征,确定每一目标基线数据中的有效基线数据;
具体的,在实际的使用过程中,通常将每天的固定时间设置为采集时间,由此每次到达采集时间后会将当天的上报日志信息上传至对应的统计模块中,通过统计模块对相应的上报日志信息中的上报数据进行统计,可以得到目标基线数据。但是,由于网络传输过程中存在延时和数据丢失的情况,所以在某一个对应的采集时间可能会存在多个上传的上报日志信息,其中只有一个上报日志信息是该采集时间对应的,其他的均为误传的信息。但是,由于不同的上报日志信息会对应不同的采集时间,由此,可以通过采集时间特征来区分当前采集时间对应的上报日志信息为哪一个,也即有效基线数据。
步骤S502:根据至少一个有效基线数据,确定补偿基线数据。
本实施例可以通过采集时间特征来去除获得的目标基线数据中噪音数据,由此,可以进一步的提高确定出来的补偿基线数据的准确性。
根据本发明的第二个方面,如图2所示,提供了一种数据处理装置40,包括:
第一获取模块401,用于获取异常上报数据。
第一确定模块402,用于确定异常上报数据对应的缺失数据类型和第一日期。
第二确定模块403,用于根据第一日期确定目标时间段。
第二获取模块404,用于根据所述缺失数据类型和所述目标时间段,获取至少一个与所述缺失数据类型对应的目标基线数据。
第三确定模块405,用于根据至少一个目标基线数据确定补偿基线数据。
补偿模块406,用于根据补偿基线数据对异常上报数据进行补偿。
根据本发明的第三个方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如上述任一项的数据处理方法。
根据本发明的第四个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如上述任一项的数据处理方法。
本发明通过至少一个目标基线数据来确定出补偿基线数据,将补偿基线数据预估推定为第一日期应该对应的正常的上报数据,并用对应的补偿基线数据对异常上报数据进行替换补偿。由此,可以将由于节假日、断电等正常情况导致的异常上报数据替换转变为正常的上报数据,进而,可以减少对由于非网络攻击导致的异常上报数据的告警次数,进而减少不准确告警的次数。
同时,第三日期的选取可以根据子时间段所包括的时间特点以及对应的缺失的子项上报数据的特点来按照预定规则进行第三日期的选取,由此,可以使得选取的目标基线数据更加贴合异常上报数据的特点,由此,可以提高补偿基线数据的准确性。
另外,通过采集时间特征来去除获得的目标基线数据中噪音数据,由此,可以进一步的提高确定出来的补偿基线数据的准确性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取异常上报数据;
确定所述异常上报数据对应的缺失数据类型和第一日期;
根据所述第一日期确定目标时间段;
根据所述缺失数据类型和所述目标时间段,获取至少一个与所述缺失数据类型对应的目标基线数据;
根据至少一个目标基线数据确定补偿基线数据;
根据所述补偿基线数据对所述异常上报数据进行补偿。
2.根据权利要求1所述的一种数据处理方法,其特征在于,所述根据所述缺失数据类型和所述目标时间段,获取至少一个目标基线数据,包括:
确定所述目标时间段内包含的至少一个第二日期;
获取每一所述第二日期对应的上报数据中属于所述缺失数据类型的目标基线数据。
3.根据权利要求1所述的一种数据处理方法,其特征在于,所述目标时间段包括至少一个子时间段;
所述根据所述缺失数据类型和所述目标时间段,获取至少一个目标基线数据,包括:
根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据。
4.根据权利要求3所述的一种数据处理方法,其特征在于,所述子时间段包括至少一个第三日期;
所述根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据,包括:
确定每一所述子时间段对应的至少一个第三日期;
获取每一所述第三日期对应的上报数据中属于所述缺失数据类型的第一子目标基线数据;
根据每一所述子时间段对应的所述第一子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据。
5.根据权利要求3所述的一种数据处理方法,其特征在于,每一所述子时间段均包括多个第四日期,且所述第四日期的数量大于设定阈值;
所述根据所述缺失数据类型和至少一个所述子时间段,分别获取每一所述子时间段对应的所述目标基线数据,包括:
确定每一所述子时间段中对应的多个第四日期;
获取每一所述第四日期对应的上报数据中属于所述缺失数据类型且符合采集规则的第二子目标基线数据;
根据每一所述子时间段对应的所述第二子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据。
6.根据权利要求5所述的一种数据处理方法,其特征在于,多个所述第二子目标基线数据符合正态分布;
根据每一所述子时间段对应的所述第二子目标基线数据,分别确定每一所述子时间段对应的所述目标基线数据,包括:
根据每一所述子时间段对应的所述第二子目标基线数据,确定该子时间段对应的正态分布图;
获取每一所述子时间段对应的正态分布图中处于(μ-3σ,μ+3σ)区间内的至少一个所述第二子目标基线数据;
根据每一所述子时间段对应的所述第二子目标基线数据,确定每一所述子时间段对应的所述目标基线数据。
7.根据权利要求1所述的一种数据处理方法,其特征在于,在所述根据第一日期确定目标时间段之前,所述方法还包括:
确定所述第一日期是否具有设定属性;
若具有,则所述根据第一日期确定目标时间段,包括:
根据所述第一日期,确定第七日期和第八日期;
判断所述第七日期和所述第八日期是否具有设定属性,得到判断结果,所述第七日期早于所述第一日期,且与所述第一日期相邻,所述第八日期晚于所述第一日期,且与所述第一日期相邻;
根据所述判断结果确定所述目标时间段。
8.根据权利要求1所述的一种数据处理方法,其特征在于,所述根据至少一个目标基线数据确定补偿基线数据,包括:
根据采集时间特征,确定每一目标基线数据中的有效基线数据;
根据至少一个所述有效基线数据,确定补偿基线数据。
9.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取异常上报数据;
第一确定模块,用于确定所述异常上报数据对应的缺失数据类型和第一日期;
第二确定模块,用于根据所述第一日期确定目标时间段;
第二获取模块,用于根据所述缺失数据类型和所述目标时间段,获取至少一个与所述缺失数据类型对应的目标基线数据;
第三确定模块,用于根据至少一个目标基线数据确定补偿基线数据;
补偿模块,用于根据所述补偿基线数据对所述异常上报数据进行补偿。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537982.2A CN114978863B (zh) | 2022-05-17 | 2022-05-17 | 一种数据处理方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537982.2A CN114978863B (zh) | 2022-05-17 | 2022-05-17 | 一种数据处理方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114978863A true CN114978863A (zh) | 2022-08-30 |
CN114978863B CN114978863B (zh) | 2024-03-01 |
Family
ID=82984214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210537982.2A Active CN114978863B (zh) | 2022-05-17 | 2022-05-17 | 一种数据处理方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114978863B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473459A (zh) * | 2013-09-17 | 2013-12-25 | 恒东信息科技无锡有限公司 | 一种多系统大数据的处理及融合方法 |
US20150347493A1 (en) * | 2014-05-29 | 2015-12-03 | Samsung Sds Co., Ltd. | System and method for processing data |
CN106991145A (zh) * | 2017-03-23 | 2017-07-28 | 中国银联股份有限公司 | 一种监测数据的方法及装置 |
CN107092637A (zh) * | 2017-02-16 | 2017-08-25 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN108197156A (zh) * | 2017-12-08 | 2018-06-22 | 囯网河北省电力有限公司电力科学研究院 | 用电信息采集系统的异常电量数据修复方法及终端设备 |
CN109445972A (zh) * | 2018-09-21 | 2019-03-08 | 深圳供电局有限公司 | 数据修复方法、装置、设备和存储介质 |
CN110569166A (zh) * | 2019-08-19 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 异常检测方法、装置、电子设备及介质 |
WO2021091492A1 (en) * | 2019-11-06 | 2021-05-14 | Envision Digital International Pte. Ltd. | Method and apparatus for transmitting data in iot system, and gateway device and storage medium thereof |
WO2021130936A1 (ja) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | 時系列データ処理方法 |
CN114328123A (zh) * | 2021-12-30 | 2022-04-12 | 北京百度网讯科技有限公司 | 异常确定方法、训练方法、装置、电子设备以及存储介质 |
-
2022
- 2022-05-17 CN CN202210537982.2A patent/CN114978863B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473459A (zh) * | 2013-09-17 | 2013-12-25 | 恒东信息科技无锡有限公司 | 一种多系统大数据的处理及融合方法 |
US20150347493A1 (en) * | 2014-05-29 | 2015-12-03 | Samsung Sds Co., Ltd. | System and method for processing data |
CN107092637A (zh) * | 2017-02-16 | 2017-08-25 | 北京小度信息科技有限公司 | 数据处理方法及装置 |
CN106991145A (zh) * | 2017-03-23 | 2017-07-28 | 中国银联股份有限公司 | 一种监测数据的方法及装置 |
CN108197156A (zh) * | 2017-12-08 | 2018-06-22 | 囯网河北省电力有限公司电力科学研究院 | 用电信息采集系统的异常电量数据修复方法及终端设备 |
CN109445972A (zh) * | 2018-09-21 | 2019-03-08 | 深圳供电局有限公司 | 数据修复方法、装置、设备和存储介质 |
CN110569166A (zh) * | 2019-08-19 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 异常检测方法、装置、电子设备及介质 |
WO2021091492A1 (en) * | 2019-11-06 | 2021-05-14 | Envision Digital International Pte. Ltd. | Method and apparatus for transmitting data in iot system, and gateway device and storage medium thereof |
WO2021130936A1 (ja) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | 時系列データ処理方法 |
CN114328123A (zh) * | 2021-12-30 | 2022-04-12 | 北京百度网讯科技有限公司 | 异常确定方法、训练方法、装置、电子设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
温粉莲;: "一种混合模型的时序数据异常检测方法", 数字通信世界, no. 01 * |
苗键强;童星;康重庆;: "考虑相关因素统一修正的节假日负荷预测模型", 电力建设, no. 10, 1 October 2015 (2015-10-01) * |
Also Published As
Publication number | Publication date |
---|---|
CN114978863B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143102B (zh) | 异常数据检测方法、装置、存储介质及电子设备 | |
CN107871190B (zh) | 一种业务指标监控方法及装置 | |
CN112822143B (zh) | 一种ip地址的评估方法、系统及设备 | |
KR100841876B1 (ko) | 의미있는 변화를 드러내는 다이나믹 프로세스 메트릭스의자동 모니터링 및 통계적 분석 | |
US6643613B2 (en) | System and method for monitoring performance metrics | |
CN111092757A (zh) | 一种异常数据的检测方法、系统及设备 | |
WO2008060015A1 (en) | System and method for management of performance fault using statistical analysis | |
CN108599977B (zh) | 基于统计方法监控系统可用性的系统及方法 | |
CN108696368B (zh) | 一种网元健康状态的检测方法及设备 | |
CN113590429B (zh) | 一种服务器故障诊断方法、装置及电子设备 | |
CN109951466B (zh) | 端口流量监控方法、装置、电子设备及机器可读存储介质 | |
EP2613263B1 (en) | Operations management device, operations management method, and program | |
CN108718303A (zh) | 安全运维管理方法及系统 | |
CN106202280A (zh) | 一种信息处理方法及服务器 | |
CN114531338A (zh) | 一种基于调用链数据的监控告警和溯源方法及系统 | |
CN114978863B (zh) | 一种数据处理方法、装置、计算机设备及可读存储介质 | |
CN112988521A (zh) | 一种告警方法、装置、设备及存储介质 | |
CN110138892B (zh) | 确定设备地域信息的方法及装置 | |
CN110134680B (zh) | 空间监控方法、装置、计算机设备及存储介质 | |
CN110855484A (zh) | 自动检测业务量变化的方法、系统、电子设备和存储介质 | |
CN107292486B (zh) | 电网资产保险支出测算模型 | |
CN115834335B (zh) | 告警信息处理方法及装置、存储介质及电子设备 | |
CN113448805B (zh) | 基于cpu动态阈值的监控方法、装置、设备及存储介质 | |
CN116304763B (zh) | 一种电力数据预分析方法、系统、设备及介质 | |
CN113132301B (zh) | 异常数据汇集的检测方法、装置和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |