CN115809160A - 数据处理方法、电子设备、存储介质及程序产品 - Google Patents
数据处理方法、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN115809160A CN115809160A CN202111083803.4A CN202111083803A CN115809160A CN 115809160 A CN115809160 A CN 115809160A CN 202111083803 A CN202111083803 A CN 202111083803A CN 115809160 A CN115809160 A CN 115809160A
- Authority
- CN
- China
- Prior art keywords
- information
- data information
- data
- time period
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 claims abstract description 131
- 238000012216 screening Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 87
- 238000000034 method Methods 0.000 claims description 73
- 238000013507 mapping Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 abstract description 34
- 238000012423 maintenance Methods 0.000 abstract description 8
- 238000013468 resource allocation Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种数据处理方法、电子设备、存储介质及程序产品。其中,数据处理方法包括:获取多个第一数据信息;对所述多个第一数据信息进行预处理,得到所述多个第一数据信息中的第二数据信息;从所述多个第一数据信息中确定多个候选数据信息;根据所述第二数据信息和所述多个候选数据信息,从所述多个候选数据信息中筛选得到目标数据信息,所述目标数据信息与所述第二数据信息具有相同的数据类型。根据本发明实施例的方案,能够在不增加电力监控系统资源配置的基础上,获得期望的目标数据信息,例如过滤出与故障强相关的日志和告警,辅助运维人员进行故障根因定位。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种数据处理方法、电子设备、存储介质及程序产品。
背景技术
在电力行业的发、输、变、配、用各个环节,业界一般采用电力监控(SupervisoryControl And Data Acquisition,SCADA)系统进行管理。目前,常常通过电力监控系统运行过程中产生的日志文件(例如操作日志、安全日志、系统日志等)进行故障定位分析,但是,随着电力组网日益复杂,规模日益扩大,根据日志文件分析定位故障的难度日益增加。
现有技术中,常用贝叶斯算法使用过滤时间段过滤的方法来计算出特定日志和故障间的关联关系,这对后端训练的算力处理能力要求较高,资源开销比较大。而对于告警监控来说,需要针对告警建立对应故障类型的经验库,需要业务人员投入大量经验梳理出经验库,这种人工方式除了成本耗费巨大,而且还会因为人的主观随意性导致经验库的疏漏和错误。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种数据处理方法、电子设备、存储介质及程序产品,能够在不增加电力监控系统资源配置的基础上,达到快速获得期望的目标数据信息的目的。
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取多个第一数据信息;
对所述多个第一数据信息进行预处理,得到所述多个第一数据信息中的第二数据信息;
从所述多个第一数据信息中确定多个候选数据信息;
根据所述第二数据信息和所述多个候选数据信息,从所述多个候选数据信息中筛选得到目标数据信息,所述目标数据信息与所述第二数据信息具有相同的数据类型。
第二方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如上所述的数据处理方法。
本发明实施例包括:获取多个第一数据信息,对多个第一数据信息进行预处理得到多个第一数据信息中的第二数据信息;接着从多个第一数据信息中确定多个候选数据信息,根据第二数据信息和多个候选数据信息,从多个候选数据信息中筛选得到目标数据信息,其中,目标数据信息与第二数据信息具有相同的数据类型。根据本发明实施例的方案,通过对多个第一数据信息进行预处理,得到多个第一数据信息中的第二数据信息,使得第二数据信息可以作为期望得到的数据信息的参考标准,接着从多个第一数据信息中确定多个候选数据信息,然后根据第二数据信息和多个候选数据信息,从多个候选数据信息中筛选出与第二数据信息具有相同的数据类型的目标数据信息,即是说,本发明实施例的方案,通过预先确定所期望得到的数据信息的数据类型,然后筛选出与该数据类型对应的目标数据信息,能够在不增加电力监控系统资源配置的基础上,达到快速获得期望的目标数据信息的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的用于执行数据处理方法的电力监控系统架构的示意图;
图2是本发明一个实施例提供的数据处理装置的结构示意图;
图3是本发明一个实施例提供的数据处理方法的流程图;
图4是图3中步骤S320的具体方法的流程图;
图5是图4中步骤S321的一种具体方法的流程图;
图6是本发明一个示例提供的告警编号与告警频次对应关系的柱状图;
图7是图4中步骤S321的另一种具体方法的流程图;
图8是图6中步骤S3213的具体方法的流程图;
图9是图3中步骤S330的具体方法的流程图;
图10是图3中步骤S340的一种具体方法的流程图;
图11是图9中步骤S342的具体方法的流程图;
图12是图3中步骤S340的另一种具体方法的流程图;
图13是本发明一个示例提供的划分目标时间段的示意图;
图14是图11中步骤S346的具体方法的流程图;
图15是图11中步骤S348的具体方法的流程图;
图16是本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明提供了一种数据处理方法、电子设备、存储介质及程序产品,先通过对多个第一数据信息进行预处理,得到多个第一数据信息中的第二数据信息,接着又从多个第一数据信息中确定多个候选数据信息,然后根据第二数据信息和多个候选数据信息,从多个候选数据信息中筛选出与第二数据信息具有相同的数据类型的目标数据信息,因此,能够在不增加电力监控系统资源配置的基础上,达到快速获得期望的目标数据信息的目的。
下面结合附图,对本发明实施例作进一步阐述。
如图1所示,图1是本发明一个实施例提供的用于执行数据处理方法的电力监控系统架构的示意图。在图1的示例中,该电力监控系统架构包括系统层100、通讯层200和设备层300,其中,通讯层200设置于系统层100与设备层300之间,通讯层200分别与系统层100和设备层300通讯连接。
以电力系统为例,设备层300可以包括电力仪表310、环境传感器320和执行器330等设备,能够采集各种电力设备的各项电力参数,比如电表、电力保护设备或者母联等各种电力设备的电力参数,也能够采集各类环境传感器320的实时采样值,比如温度传感器测量的温度值、湿度传感器测量的温度值或者振动传感器检测的机械量,并且能够通过设备侧规约将所采集的各项电力参数和采样值上送到通讯层200中的通讯管理机210。需要说明的是,设备侧规约是指一系列共用或者厂家的私有协议,比如modbus协议、ProfINet协议、Ethernet/IP协议或者HSE协议等,在此不再一一列举。
通讯层200包括通讯管理机210,通讯管理机210也可称作采集网关。该通讯层200能够接收设备层300上送的各项数据,并将接收到的各项数据进行汇聚,然后将汇聚后的各项数据通过系统侧规约上报到系统层100,所以通讯层200在电力监控系统中起到一个承上启下的作用。需要说明的是,系统侧规约包括电力行业的通用规约和厂家的私有规约,在此不作具体限制。
系统层100包括SCADA软件110和数据处理装置120,该SCADA软件110能够接收到通讯层200上送的数据,并将该数据映射成相应的设备和点位,同时能够基于一系列的控制策略反向控制电力系统内的执行器330,以保障电力系统的平稳运行。
需要说明的是,该电力监控系统不仅可以应用于电力系统,也可以应用于给水系统、石油或者化工等领域。
基于图1所示的电力监控系统架构,如图2所示,本发明实施例提供了一种数据处理装置120,该数据处理装置120至少包括信息获取模块121、关联识别模块123和数据预处理模块122,其中数据预处理模块122分别与信息获取模块121和关联识别模块123连接,信息获取模块121和关联识别模块123连接。
信息获取模块121接收到电力监控系统生成的多个第一数据信息,并将该多个第一数据信息发送给数据预处理模块122和关联识别模块123。数据预处理模块122对接收到的多个第一数据信息进行预处理,得到多个第二数据信息,并将该多个第二数据信息发送给关联识别模块123。关联识别模块123从多个第一数据信息中确定多个候选数据信息,并根据第二数据信息从多个候选数据信息中筛选与第二数据信息具有相同数据类型的目标数据信息,然后发送给电力监控系统展示。
需要说明的是,数据预处理模块122可以包括日志网关和告警网关等,在此不做具体限定。例如,日志网关接收电力监控系统生成的多个日志信息,并对多个日志信息进行预处理,得到多个低频次日志信息,然后将多个低频次日志信息传给关联识别模块123,其中,日志信息包括操作信息、系统信息和安全信息等,在此不作具体限制。同样地,告警网关接收来自电力监控系统的多个告警信息,并对多个告警信息进行预处理,得到多个低频次告警信息,将该低频次告警信息传给关联识别模块123。关联识别模块123根据日志网关推送的多个低频日志信息和告警网关推送的多个低频次告警信息,从多个日志信息和多个告警信息中目标数据信息,并将该目标数据信息送给电力监控系统,使得目标数据信息被展示,辅助运维人员进行根因定位。
需要说明的是,低频次日志信息为低于或者等于预设频次阈值的日志信息,同理,低频次告警信息为低于或者等于预设频次阈值的告警信息,而预设频次阈值可以根据实际应用情况而进行适当的选择,在此不做具体限定。
需要说明的是,低频次日志信息和低频次告警信息均属于第二数据信息,日志信息和告警信息均属于第一数据信息,第二数据信息和目标数据信息具有相同的数据特征。
本发明实施例描述的电力监控系统架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域技术人员可知,随着电力监控系统架构的演变和新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1中示出的电力监控系统架构和图2中示出的数据处理装置并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述电力监控系统架构,下面提出数据处理方法的各个实施例。
如图3所示,图3是本发明一个实施例提供的数据处理方法的流程图,该数据处理方法可以应用于数据处理装置,例如图1所示电力监控系统架构中的数据处理装置。该数据处理方法可以包括但不限于有步骤S310、步骤S320、步骤S330和步骤S340。
步骤S310:获取多个第一数据信息。
本步骤中,当电力监控系统发生故障时,数据处理装置可以获取电力监控系统生成的多个第一数据信息,其中,第一数据信息可以包括日志信息、告警信息和其他数据信息等,在此不做具体限制。例如,假设第一数据信息是告警信息时,该第一数据信息可以包括告警名称、告警故障原因和告警级别等;又如,假设第一数据信息是日志信息时,该第一数据信息可以包括操作日志、安全日志和系统日志等。
需要说明的是,获取多个第一数据信息可以有不同的实施方式,本实施例对此不作具体限定。例如,可以指通过读取电力监控系统生成的相关数据文件得到,也可以是通过调用电力监控系统暴露的查询接口获取到。
步骤S320:对多个第一数据信息进行预处理,得到多个第一数据信息中的第二数据信息。
本步骤中,由于在步骤S310中获取到了多个包括第二数据信息的第一数据信息,所以数据处理装置会将获取到的多个第一数据信息进行预处理,得到多个第二数据信息,以便于后续步骤可以根据第二数据信息对多个候选数据信息进行筛选。该步骤大大减少了数据处理的算力消耗,进而减少处理时间,同时有利于电力监控系统的一体化、小型化,压缩方案整体成本,提高市场竞争力。
步骤S330:从多个第一数据信息中确定多个候选数据信息。
本步骤中,由步骤S310中获取到多个第一数据信息后,数据处理装置将该多个第一数据信息进行筛选,得到多个候选数据信息,减少了数据处理量,节省了数据处理时间。
可以理解的是,候选数据信息可以包括日志信息、告警信息和其他数据信息等,在此不做具体限制。例如,假设候选数据信息是告警信息时,该第一数据信息可以包括告警名称、告警故障原因和告警级别等;又如,假设第一数据信息是日志信息时,该第一数据信息可以包括操作日志、安全日志和系统日志。
步骤S340:根据第二数据信息和多个候选数据信息,从多个候选数据信息中筛选得到目标数据信息,目标数据信息与第二数据信息具有相同的数据类型。
本步骤中,由步骤S330中得确定的候选数据信息后,会将根据由步骤S320中获取到的第二数据信息的数据类型,从多个候选数据信息中筛选和第二数据信息具有相同的数据类型的目标数据信息,该步骤减少80-90%的数据处理量从而减少计算时间,同时减少了电力监控系统资源消耗,且在不增加电力监控系统资源配置的情况下部署故障根因定位。
需要说明的是,候选数据信息可以有多种不同的数据类型,而第一数据信息和候选数据信息具有相同的数据类型,因此,根据第一数据信息得到的第二数据信息的数据类型可以属于候选数据信息的数据类型中的一种或者多种,数据类型可以包括日期与时间类型、低频次类型或者高频次类型等,本实施例对此不作具体限定。当第二数据信息为不同的数据类型时,关联识别模块也会对应执行不同的筛选方式。例如,当第二数据信息为低频次的数据类型时,关联识别模块会从候选数据信息中筛选出低频次的候选数据信息,得到目标数据信息,而高频词的候选数据信息不做处理或者舍弃;又如,当第二数据信息的数据类型为日期与时间类型,关联识别模块会将日期与时间都相同的候选数据信息筛选出来,或者,关联识别模块会将日期相同而时间不同的候选数据信息筛选出来,又或者,关联识别模块会将时间相同而日期不同的候选数据信息筛选出来,最终得到目标数据信息,有利于辅助运维人员定位故障根因。
需要说明的是,低频次为低于或者等于频次阈值的频次,同理,高频次类型为高于频次阈值的频次,而频次阈值可以根据实际应用情况而进行适当的选择,在此不做具体限定。
本实施例中,通过采用包括上述步骤S310至步骤S340的数据处理方法,利用数据处理装置获取到多个第一数据信息,然后利用该数据处理装置对多个第一数据信息进行预处理,得到第二数据信息,接着利用该数据处理装置从多个第一数据信息中确定多个候选数据信息,最后根据第二数据信息的数据类型,对多个候选数据信息进行筛选,得到与第二数据信息具有相同的数据类型的目标数据信息,最后对该目标数据信息进行信息推送处理,使得该目标数据信息被展示。因此,本实施例能够在不增加电力监控系统资源配置的基础上,达到快速获得期望的目标数据信息的目的,有助于运维人员进行根因定位。
需要说明的是,通过步骤S320对多个第一数据信息的预处理,数据处理时间已经减少到原来5%以内。
值得注意的是,随着组网日益复杂,规模的日益扩大,电力监控系统产生的数据量往往是非常庞大的,如果是人工方式对所有数据进行故障根因定位,是非常耗费成本的,而且还会因为人的主观随意性导致经验库的疏漏和错误。但若是后台对所有数据进行故障根因定位,对后端训练的算力处理能力要求会相对较高,并且通常需要GPU服务器,这样就增加了电力监控系统资源开销,不利于电力监控系统整体的小型化、集约化,也不利于降低成本。而在本实施例中,由于对第一数据信息进行预处理,因此可以达到减少数据处理量、降低电力监控系统资源开销和节省成本的目的。
在一实施例中,如图4所示,对步骤S320进一步的说明,该步骤S320可以包括但不限于有步骤S321和步骤S322。
步骤S321:对多个第一数据信息进行基于频次的聚类处理,得到多个聚类集合,不同的聚类集合具有不同的中心频次。
本步骤中,当数据处理装置对多个第一数据信息进行预处理以得第二数据信息时,数据处理装置可以先执行步骤S321以得到多个聚类集合,而且不同的聚类集合具有不同的中心频次,以便于后续步骤可以根据该多个聚类集合得到第二数据信息,除此之外,聚类处理可以不用手工设置,减少人工设置的繁琐与主观因素。
需要说明的是,聚类是指按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。而基于频次的聚类处理而采用的聚类方法是指频次把多个第一数据信息分割成不同的聚类集合,使得同一个聚类集合里的第一数据信息的频次尽可能的接近,同时不在同一个聚类集合中的第一数据信息的频次的差异性也尽可能地大。还需要说明的是,聚类方法可以有多种,比如kmeans算法、K-means++算法或者bi-kmeans算法,本实施例对此不做具体限定。
步骤S322:从多个聚类集合中确定中心频次小于或等于频次阈值的目标聚类集合,得到第二数据信息。
本步骤中,由于在步骤S321得到了多个聚类集合,因此可以根据该多个聚类集合确定中心频次小于或等于频次阈值的目标聚类集合,得到第二数据信息,以便于后续步骤可以根据第二数据信息对多个候选数据信息进行筛选。
需要说明的是,频次阈值可以是人工设置,也可以是电力监控系统根据多个聚类集合中的中心频次自动设置,本实施例对此不作具体限定。根据频次阈值可以将多个聚类集合分成两大聚类集合,分别是中心频次小于或者等于频次阈值的低频次聚类集合,即目标聚类集合,和中心频次大于频次阈值的高频次聚类集合。从目标聚类集合中可以得到第二数据信息,而高频次聚类集合可以不做处理或者舍弃,在此不做具体限制,而对高频次聚类集合进行舍弃,按照帕累托法则,能够减少90%以上的数据处理量,这样大大减少了计算负荷,同时减少了对CPU、内存的资源要求。还需要说明的是,对高频次的第一数据信息的舍弃不会影响后续步骤筛选出目标数据信息。例如,假设使用kmeans算法对基于频次对多个第一数据信息进行聚类,聚类集合如下表1所示,该表包括频次分类、不同聚类集合中数据信息的数目和各频次类型中的数据信息在总数据信息中的占比,由下表1可知,基于聚类算法自动分类出来的高频次数据舍弃后,可以减少将近90%的数据处理量。
表1
在本实施例中,通过采用上述步骤S321和步骤S322,在数据处理装置对多个第一数据信息基于频次的聚类处理后,得到多个具有不同的中心频次的聚类集合,接着又该多个聚类集合中确定中心频次小于或者等于频次阈值的目标数据信息,得到第二数据信息。可以理解的是,第二数据信息为低频次的数据。
在一实施例中,如图5所示,对步骤S321进行进一步的说明,在第一数据信息包括告警信息,告警信息具有告警编号的情况下,该步骤S321可以包括但不限于有步骤S3211和步骤S3212。
步骤S3211:根据告警编号对告警信息进行频次统计,得到告警信息的告警频次。
本步骤中,在第一数据信息包括告警信息,告警信息具有告警编号的情况下,当要得到多个聚类集合时,可以根据告警编号对告警信息基于频次进行统计,得到告警信息的告警频次,以便于后续步骤可以利用该告警频次对告警信息进行聚类处理。
需要说明的是,对告警信息基于频次进行统计后,可以根据告警编号与告警频次的对应关系建立告警编号、频次两个字段的二维表,以便于后续步骤对告警信息进行聚类处理。例如,假设采用python的pandas库的value_counts()方法,按告警编号进行汇总,并倒序排列,告警编号、频次两个字段的二维表如下表2所示,该表包括告警编码和告警频次,图6是与表1相对应的柱状图。假设频次阈值是1000,则告警频次低于或者等于频次阈值的告警信息均为低频次告警信息,而告警频次高于频次阈值的告警信息均为高频次告警信息,根据下面表2可以看出,告警编码为第一告警信息(2114060448)、第二告警信息(2114322696)、第三告警信息(12596994)和第四告警信息(12611841)分别对应的告警信息均为高频次告警信息,而告警编码为第五告警信息(2114060402)、第六告警信息(12596992)、第七告警信息(2114322678)和第八告警信息(2121662481)分别对应的告警信息为低频次告警信息,且由图6可以明显地观察到不同类型的告警频次分布是不平衡的。
表2
告警编码 | 告警频次 |
第一告警信息(2114060448) | 72761 |
第二告警信息(2114322696) | 7721 |
第三告警信息(12596994) | 5141 |
第四告警信息(12611841) | 2085 |
第五告警信息(2114060402) | 918 |
第六告警信息(12596992) | 646 |
第七告警信息(2114322678) | 10 |
第八告警信息(2121662481) | 1 |
步骤S3212:根据告警频次对所有告警信息进行聚类处理,得到多个聚类集合。
本步骤中,由于在步骤S3211中得到告警信息的告警频次,因此,可以根据该告警频次对所有的告警信息进行聚类处理,得到多个聚类集合,以便于后续步骤可以利用该聚类集合确定目标聚类集合。该步骤使用聚类方法对告警信息的告警频次进行聚类,而不是手工配置分类阈值,主要是为了算法处理更加端到端,避免人的主观判断对算法的影响,并且减少运维人员的配置工作量。
需要说明的是,进行聚类处理而采用的聚类方法可以有多种,比如kmeans算法、K-means++算法或者bi-kmeans算法,本实施例对此不做具体限定。
本实施例中,通过采用上述步骤S3211和步骤S3212,在数据处理装置对所有告警信息根据告警编号进行频次统计,得到所有告警信息对应的告警频次,然后又根据该告警频次对所有的告警信息进行聚类处理,得到多个告警信息的聚类集合。
在一实施例中,如图7所示,对步骤S321进行进一步的说明,在第一数据信息包括日志信息的情况下,该步骤S321可以包括但不限于有步骤S3213和步骤S3214。
步骤S3213:对日志信息进行频次统计,得到日志信息的日志频次。
本步骤中,在第一数据信息包括日志信息的情况下,当要得到多个聚类集合时,可以对日志信息基于频次进行统计,得到日志信息的日志频次,以便于后续步骤可以利用该日志频次对日志信息进行聚类处理。
步骤S3214:根据日志频次对所有日志信息进行聚类处理,得到多个聚类集合。
本步骤中,由于在步骤S3213中得到日志信息的日志频次,因此,可以根据该日志频次对所有的日志信息进行聚类处理,得到多个聚类集合,以便于后续步骤可以利用该聚类集合确定目标聚类集合。该步骤使用聚类方法对日志信息的日志频次进行聚类,而不是手工配置分类阈值,主要是为了算法处理更加端到端,避免人的主观判断对算法的影响,并且减少运维人员的配置工作量。
需要说明的是,对日志信息进行聚类处理而采用的方法可以有多种,再次不做具体限定,比如采用MapReduce并行技术、基于LCS的Chameleon实时日志聚类方法和最近邻链的层次聚类算法等。
本实施例中,通过采用上述步骤S3213和步骤S3214,在数据处理装置对所有日志信息进行频次统计,得到所有日志信息的日志频次,然后又根据该日志频次对所有的日志信息进行聚类处理,得到多个日志信息的聚类集合。
在一实施例中,如图8所示,对步骤S3213进行进一步的说明,该步骤S3213可以包括但不限于有步骤S32131、步骤S32132和步骤S32133。
步骤S32131:对日志信息进行变量替换处理,得到备选信息。
本步骤中,当需要得到日志信息的日志频次时,可以先对日志信息进行变量替换处理,得到备选信息,以便于后续步骤可以利用备选信息获取其对应的映射信息。
需要说明的是,对日志信息进行变量替换处理可以采用不同的处理方法,在此不做具体限定。例如对日志信息基于正则表达式进行变量替换,将日志信息中的详细的IP地址、端口号以及时间等利用$IP、$IPPort以及$DateTime等字符串替换,得到备选信息。需要说明的是,正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
还需要说明的是,变量可以指时间、带符号整数、浮点数或者特殊字符等,根据实际情况而定,在此不做具体限定。
步骤S32132:对备选信息进行映射处理,得到映射信息。
本步骤中,由于在步骤S32131中得到了备选信息,因此,通过映射处理得到与备选信息对应的映射信息,以便于后续步骤可以利用映射信息对日志信息进行频次统计。
需要说明的是,对备选信息进行映射处理而采用的方法有很多,在此不做具体限定。比如,采用哈希函数对备选信息编码为固定长度的字符串,得到映射信息。又如,在电力监控系统中建立一个固定长度编码格式的字符串匹配通用函数,通过调用该函数,对备选信息进行映射处理。需要说明的是,哈希函数是常用定长编码函数,其编码速度快、防撞特性好,使用广泛。比如,采用python的hashlib库的hexdigest()方法进行编码得到固定长度的字符串。
步骤S32133:根据映射信息对日志信息进行频次统计,得到日志信息的日志频次。
本步骤中,由于在步骤S32132中得到了映射信息,因此,可以根据映射信息对日志信息进行频次统计,得到日志信息的日志频次,以便于后续步骤S3214对日志信息进行聚类处理。
本实施例中,通过采用包括有上述步骤S32121至步骤S32133的数据处理方法,利用数据处理装置对日志信息进行变量替换处理,得到备选信息,接着又对该备选信息进行映射处理,得到映射信息,然后根据该映射信息对日志信息进行频次统计,最终得到日志信息的日志频次。
需要说明的是,在得到日志信息的日志频次后,可以对将映射信息与日志频次建立映射关系,以便于后续S3214对日志信息进行聚类处理,可以根据实际情况选择,本实施例对此不做具体限定。比如,对日志信息基于正则表达式进行变量替换,得到备选信息,采用哈希函数对备选信息编码为固定长度的字符串,得到映射信息,通过映射信息对日志信息进行统计,形成日志编码、频次两个字段的二维表,其中,可以采用python的pandas库的value_counts()方法,按日志编码汇总,并倒序排列。
在一实施例中,如图9所示,对步骤S330进行进一步的说明,该步骤S330可以包括但不限于有步骤S331和步骤S332。
步骤S331:确定目标时间段。
本步骤中,当需要确定多个候选数据信息时,可以先确定目标时间段,以便于后续步骤可以从多个第一数据信息中确定处于目标时间段内的多个候选数据信息。
需要说明的是,目标时间段的确定方式有很多,在此不做具体限定。比如,假设故障发生的时间设为目标时间段的结束时间,再基于整体过滤时间段长度来确定目标时间段的开始时间,从而确定目标时间段。
步骤S332:从多个第一数据信息中确定处于目标时间段内的多个候选数据信息。
本步骤中,由于步骤S331确定了目标时间段,因此,可以在目标时间段内对多个第一数据信息进行筛选,得到候选数据信息,减少了数据处理量。
本实施例中,通过采用包括有上述步骤S331至步骤S332的数据处理方法,确定了目标时间段,接着又从多个第一数据信息中确定处于目标时间段内的多个候选数据信息,大大减少了数据处理量,减少目标数据信息推送的等待时间。
在一实施例中,如图10所示,对步骤S340进行进一步的说明,该步骤S340可以包括但不限于有步骤S341、步骤S342、步骤S343和步骤S344。
步骤S341:根据预设时间长度对目标时间段进行划分处理,得到两个以上的过滤时间段。
本步骤中,当需要得到目标数据信息时,可以先根据预设时间长度对目标时间段进行划分处理得到两个以上过滤时间段,以便于后续步骤利用过滤时间段对候选数据信息进行筛选处理。
需要说明的是,预设时间长度可以有多个,并且多个预设时间长度可以不同,比如2小时、6小时或者12小时等,相对应的,两个以上过滤时间段的时间长度也可以不同。使用不同预设时间长度进行相关性过滤,避免单一预设时间长度的过滤可能导致的潜在关联性过滤遗漏。
需要说明的是,当过滤时间段为三个时,其相关性过滤效率小于两个过滤时间段的相关性过滤效率,但是却大于三个以上过滤时间段的相关性过滤效率。
步骤S342:对两个以上的过滤时间段中的候选数据信息分别进行筛选处理,得到每个过滤时间段的第一信息集合。
本步骤中,由于在步骤S341中得到了两个以上的过滤时间段,因此,可以对两个以上的过滤时间段中的候选数据信息分别进行筛选处理,得到每个过滤时间段的第一信息集合,以便于后续步骤对每个过滤时间段的第一信息集合分别进行去重处理。
步骤S343:对每个过滤时间段的第一信息集合分别进行去重处理,得到每个过滤时间段的第二信息集合。
本步骤中,由于在步骤S342中得到了第一信息集合,因此,对每个过滤时间段的第一信息集合分别进行去重处理,得到每个过滤时间段的第二信息集合,以便于后续步骤对所有第二信息集合取并集,得到目标数据信息。
步骤S344:获取所有第二信息集合的并集,得到目标数据信息。
本步骤中,由于在步骤S343中得到了第二信息集合,因此,可以获取所有第二信息集合的并集,得到目标数据信息,以便后续步骤对目标数据信息进行信息推送处理,使得目标数据信息被展示,辅助运维人员定位故障根因。
本实施例中,通过采用包括有上述步骤S341至步骤S344的数据处理方法,首先,根据预设时间长度对目标时间段进行划分处理,得到两个以上的过滤时间段,接着根据第二数据信息对两个以上的过滤时间段中的候选数据信息分别进行筛选处理,得到每个过滤时间段的第一信息集合,然后,对每个过滤时间段的第一信息集合分别进行去重处理,得到每个过滤时间段的第二信息集合,最终,获取所有第二信息集合的并集,得到目标数据信息。
需要说明的是,第一信息集合中的数据信息具有与第二数据信息相同的数据类型,而只根据第二数据信息对两个以上的过滤时间段中的候选数据信息分别进行筛选处理不会影响后续过滤出与故障强相关的目标数据信息,贝叶斯公式可以为此作证明,证明过程如下:
假设第二数据信息为低频次数据信息,事件B为出现高频次数据信息的事件,A相当于发生故障,P(A|B)就是出现高频次数据信息时发生故障的概率,其中,贝叶斯公式为由公式可知,P(B)越小,P(A|B)的值越大,而高频次数据信息基本会在每个过滤时间段内出现,也就是说P(B)=1(100%),相应的P(A|B)的值很小,也就是说这些高频次数据信息的舍弃不会影响后续过滤出与故障强相关的目标数据信息。
在一实施例中,如图11所示,对步骤S342进行进一步的说明,该步骤S342可以包括但不限于有步骤S3421和步骤S3422。
步骤S3421:遍历两个以上的过滤时间段中的候选数据信息,筛选出每个过滤时间段中与第二数据信息具有相同数据类型的第一备选数据信息。
本步骤中,当需要得到每个过滤时间段的第一信息集合时,可遍历所有过滤时间段中的所有候选数据信息,从而筛选出筛选出每个过滤时间段中与第二数据信息具有相同数据类型的第一备选数据信息,以便后续步骤对每个过滤时间段的第一备选数据信息分别进行归集处理。
步骤S3422:对每个过滤时间段的第一备选数据信息分别进行归集处理,得到每个过滤时间段的第一信息集合。
本步骤中,由于在步骤S3421中得到了每个过滤时间段的第一备选数据信息,因此,可以对每个过滤时间段的第一备选数据信息分别进行归集处理,得到每个过滤时间段的第一信息集合。
本实施例中,通过采用包括有上述步骤S3421至步骤S3422的数据处理方法,首先,遍历每个过滤时间段中的候选数据信息,筛选出每个过滤时间段中与第二数据信息具有相同数据类型的第一备选数据信息,然后对每个过滤时间段的第一备选数据信息分别进行归集处理,得到每个过滤时间段的第一信息集合。
在一实施例中,如图12所示,对步骤S340进行进一步的说明,该步骤S340可以包括但不限于有步骤S345、步骤S346、步骤S347、步骤S348和步骤S349。
步骤S345:根据预设时间长度对目标时间段进行划分处理,得第一过滤时间段和第二过滤时间段。
本步骤中,当需要得到目标数据信息时,可以先根据预设时间长度对目标时间段进行划分处理,得第一过滤时间段和第二过滤时间段,以便后续步骤对每个过滤时间段的候选数据信息进行筛选处理。
步骤S346:对第一过滤时间段中的候选数据信息进行筛选处理,得到第一过滤时间段的第三信息集合。
本步骤中,由于在步骤S345中得到了第一过滤时间段,因此,可以对第一过滤时间段中的候选数据信息进行筛选处理,得到第一过滤时间段的第三信息集合,以便后续步骤对第三信息集合进行去重处理。
步骤S347:对第三信息集合进行去重处理,得到第四信息集合。
本步骤中,由于在步骤S346中得到了第三信息集合,因此,可以对第三信息集合进行去重处理,得到第四信息集合,以便后续步骤根据第四信息集合,对第二过滤时间段中的候选数据信息进行筛选处理。
步骤S348:根据第四信息集合,对第二过滤时间段中的候选数据信息进行筛选处理,得到第二过滤时间段的第五信息集合。
本步骤中,由于在步骤S347中得到了第四信息集合和在步骤S345中得到了第二过滤时间段,因此,可以根据第四信息集合,对第二过滤时间段中的候选数据信息进行筛选处理,得到第二过滤时间段的第五信息集合,以便后续步骤对第四信息集合和对第五信息集合做归集处理。
步骤S349:获取第四信息集合和第五信息集合的并集,得到目标数据信息。
本步骤中,由于在步骤S347中得到了第四信息集合和在步骤S348中得到了第五信息集合,因此,可以对第四信息集合和第五信息集合取并集,得到目标数据信息,以便后续步骤对目标数据信息进行信息推送处理,使得目标数据信息被展示,辅助运维人员定位故障根因。
本实施例中,通过采用包括有上述步骤S345至步骤S349的数据处理方法,首先,可以根据预设时间长度对目标时间段进行划分处理,得第一过滤时间段和第二过滤时间段,接着,根据第二数据信息对第一过滤时间段中的候选数据信息进行筛选处理,得到第一过滤时间段的第三信息集合,然后对第三信息集合进行去重处理,得到第四信息集合,再利用所得到的第四信息集合,根据第二数据信息对第二过滤时间段中的候选数据信息进行筛选处理,得到第二过滤时间段的第五信息集合,最后获取第四信息集合和第五信息集合的并集,得到目标数据信息。
需要说明的是,第三信息集合中的数据信息和第五信息集合中的数据信息均具有与第二数据信息相同的数据类型,而只根据第二数据信息对第一过滤时间段中的候选数据信息和第二过滤时间段中的候选数据信息分别进行筛选处理不会影响后续过滤出与故障强相关的目标数据信息,贝叶斯公式可以为此作证明,证明过程如下:
假设第二数据信息为低频次数据信息,事件B为出现高频次数据信息的事件,时间A为发生故障,P(A|B)就是出现高频次数据信息时发生故障的概率,其中,贝叶斯公式为由公式可知,P(B)越小,P(A|B)的值越大,而高频次数据信息基本会在每个过滤时间段内出现,也就是说P(B)=1(100%),相应的P(A|B)的值很小,也就是说这些高频次数据信息的舍弃不会影响后续过滤出与故障强相关的目标数据信息。
具体地,以时间窗过滤算法为例,按照预设时间长度T,将目标时间段分为T1和T2两部分,如图13所示。设T1内所有第一数据信息为φT1,T2内所有第一数据信息为φT2,若某个类型的第一数据信息并且B∈φT2,那么该类型第一数据信息和故障强相关。这个简化过程的本质是对P(A|B)<=50%的第一数据信息的舍弃,减少数据处理的复杂度,进而减少处理时间。若并且B∈φT2,从贝叶斯公式的角度,假设为N个过滤时间段,那么P(A)和P(B)都是1/N,那么P(B|A)=1,若B∈φT1并且B∈φT2,那么而P(B|A)<=1,所以同样的,对于该方法的扩展,过滤时间段可以是三个(上述两段过滤时间段的T1再一分为二),其过滤效率小于两段过滤时间段的方法但大于传统N个过滤时间段的方法;同理,简化过滤方法的过滤时间段也可以是4个、5个、直到N-1个。所以,该时间过滤算法能够在不影响过滤精度的情况下,大量减少第一数据信息遍历判断的运算次数,从而减少过滤运算的时间。
需要说明的是,低频次为低于或者等于预设频次阈值的频次,同理,高频次为高于预设频次阈值的频次,而预设频次阈值可以根据实际应用情况而进行适当的选择,在此不做具体限定。
在一实施例中,如图14所示,对步骤S346进行进一步的说明,该步骤S346可以包括但不限于有步骤S3461和步骤S3462。
步骤S3461:遍历第一过滤时间段中的候选数据信息,筛选出与第二数据信息具有相同数据类型的第二备选数据信息。
本步骤中,由于需要获取第一过滤时间段的第三信息集合,因此,可以先遍历第一过滤时间段中的候选数据信息,筛选出与第二数据信息具有相同数据类型的第二备选数据信息,以便后续步骤对第二备选数据信息进行归集处理。
步骤S3462:对第二备选数据信息进行归集处理,得到第一过滤时间段的第三信息集合。
本步骤中,由于在步骤S3461中筛选出了与第二数据信息具有相同数据类型的第二备选数据信息,因此,可以对第二备选数据信息做归集处理,得到第一过滤时间段的第三信息集合,以便后续步骤对第三信息集合进行去重处理。
本实施例中,通过采用包括有上述步骤S3461和步骤S3462的数据处理方法,首先,遍历第一过滤时间段中的候选数据信息,筛选出与第二数据信息具有相同数据类型的第二备选数据信息,然后对第二备选数据信息进行归集处理,得到第一过滤时间段的第三信息集合。
在一实施例中,如图15所示,对步骤S348进行进一步的说明,该步骤S348可以包括但不限于有步骤S3481和步骤S3482。
步骤S3481:遍历第二过滤时间段中的候选数据信息,筛选出与第二数据信息具有相同数据类型且不属于第四信息集合的第三备选数据信息;
步骤S3482:对第三备选数据信息进行归集处理,得到第二过滤时间段的第五信息集合。
本实施例中,通过采用包括有上述步骤S3481和步骤S3482的数据处理方法,首先,遍历第二过滤时间段中的候选数据信息,筛选出与第二数据信息具有相同数据类型且不属于第四信息集合的第三备选数据信息,接着对第三备选数据信息进行归集处理,得到第二过滤时间段的第五信息集合。
本发明实施例还提供了一种电子设备400,如图16所示,该电子设备400包括但不限于:
存储器420,用于存储程序;
处理器410,用于执行存储器420存储的程序,当处理器410执行存储器420存储的程序时,处理器410用于执行上述的数据处理方法。
处理器410和存储器420可以通过总线或者其他方式连接。
存储器420作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明实施例描述的数据处理方法。处理器410通过运行存储在存储器420中的非暂态软件程序以及指令,从而实现上述的数据处理方法。
存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的数据处理方法。此外,存储器420可以包括高速随机存取存储器420,还可以包括非暂态存储器420,例如至少一个磁盘存储器420件、闪存器件、或其他非暂态固态存储器420件。在一些实施方式中,存储器420可选包括相对于处理器410远程设置的存储器420,这些远程存储器420可以通过网络连接至该处理器410。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的数据处理方法所需的非暂态软件程序以及指令存储在存储器420中,当被一个或者多个处理器410执行时,执行上述的数据处理方法,例如,执行以上描述的图3中的方法步骤S310至步骤S340、图4中的方法步骤S321和步骤S322、图5中的方法步骤S3211和步骤S3212、图7中的方法步骤S3213和步骤S3214、图8中的方法步骤S32131至步骤S32133、图9中的方法步骤S331和步骤S332、图10中的方法步骤S341至步骤S344、图11中的方法步骤S3421和步骤S3422、图12中的方法步骤S345至步骤S349、图14中的方法步骤S3461和步骤S3462以及图15中的方法步骤S3481和步骤S3482。
以上所描述的装置实施例或者系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器410或控制器执行,例如,被上述装置实施例中的一个处理器410执行,可使得上述处理器410执行上述实施例中的数据处理方法,例如,执行以上描述的图3中的方法步骤S310至步骤S340、图4中的方法步骤S321和步骤S322、图5中的方法步骤S3211和步骤S3212、图7中的方法步骤S3213和步骤S3214、图8中的方法步骤S32131至步骤S32133、图9中的方法步骤S331和步骤S332、图10中的方法步骤S341至步骤S344、图11中的方法步骤S3421和步骤S3422、图12中的方法步骤S345至步骤S349、图14中的方法步骤S3461和步骤S3462以及图15中的方法步骤S3481和步骤S3482。
此外,本发明的一个实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,计算机程序或计算机指令存储在计算机可读存储介质中,计算机设备的处理器410从计算机可读存储介质读取计算机程序或计算机指令,处理器410执行计算机程序或计算机指令,使得计算机设备执行上述实施例中的数据处理方法,例如,执行以上描述的图3中的方法步骤S310至步骤S340、图4中的方法步骤S321和步骤S322、图5中的方法步骤S3211和步骤S3212、图7中的方法步骤S3213和步骤S3214、图8中的方法步骤S32131至步骤S32133、图9中的方法步骤S331和步骤S332、图10中的方法步骤S341至步骤S344、图11中的方法步骤S3421和步骤S3422、图12中的方法步骤S345至步骤S349、图14中的方法步骤S3461和步骤S3462以及图15中的方法步骤S3481和步骤S3482。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (15)
1.一种数据处理方法,包括:
获取多个第一数据信息;
对所述多个第一数据信息进行预处理,得到所述多个第一数据信息中的第二数据信息;
从所述多个第一数据信息中确定多个候选数据信息;
根据所述第二数据信息和所述多个候选数据信息,从所述多个候选数据信息中筛选得到目标数据信息,所述目标数据信息与所述第二数据信息具有相同的数据类型。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述多个第一数据信息进行预处理,得到所述多个第一数据信息中的第二数据信息,包括:
对所述多个第一数据信息进行基于频次的聚类处理,得到多个聚类集合,不同的所述聚类集合具有不同的中心频次;
从所述多个聚类集合中确定中心频次小于或等于频次阈值的目标聚类集合,得到第二数据信息。
3.根据权利要求2所述的数据处理方法,其特征在于,所述第一数据信息包括告警信息,所述告警信息具有告警编号;所述对所述多个第一数据信息进行基于频次的聚类处理,得到多个聚类集合,包括:
根据所述告警编号对所述告警信息进行频次统计,得到所述告警信息的告警频次;
根据所述告警频次对所有所述告警信息进行聚类处理,得到多个聚类集合。
4.根据权利要求2所述的数据处理方法,其特征在于,所述第一数据信息包括日志信息;所述对所述多个第一数据信息进行基于频次的聚类处理,得到多个聚类集合,包括:
对所述日志信息进行频次统计,得到所述日志信息的日志频次;
根据所述日志频次对所有所述日志信息进行聚类处理,得到多个聚类集合。
5.根据权利要求4所述的数据处理方法,其特征在于,所述对所述日志信息进行频次统计,得到所述日志信息的日志频次,包括:
对所述日志信息进行变量替换处理,得到备选信息;
对所述备选信息进行映射处理,得到映射信息;
根据所述映射信息对所述日志信息进行频次统计,得到所述日志信息的日志频次。
6.根据权利要求1所述的数据处理方法,其特征在于,所述从所述多个第一数据信息中确定多个候选数据信息,包括:
确定目标时间段;
从所述多个第一数据信息中确定处于所述目标时间段内的多个候选数据信息。
7.根据权利要求6所述的数据处理方法,其特征在于,所述根据所述第二数据信息和所述多个候选数据信息,从所述多个候选数据信息中筛选得到目标数据信息,包括:
根据预设时间长度对所述目标时间段进行划分处理,得到两个以上的过滤时间段;
对所述两个以上的过滤时间段中的所述候选数据信息分别进行筛选处理,得到每个所述过滤时间段的第一信息集合;
对每个所述过滤时间段的所述第一信息集合分别进行去重处理,得到每个所述过滤时间段的第二信息集合;
获取所有所述第二信息集合的并集,得到目标数据信息。
8.根据权利要求7所述的数据处理方法,其特征在于,所述对所述两个以上的过滤时间段中的所述候选数据信息分别进行筛选处理,得到每个所述过滤时间段的第一信息集合,包括:
遍历所述两个以上的过滤时间段中的所述候选数据信息,筛选出每个所述过滤时间段中与所述第二数据信息具有相同数据类型的第一备选数据信息;
对每个所述过滤时间段的所述第一备选数据信息分别进行归集处理,得到每个所述过滤时间段的第一信息集合。
9.根据权利要求6所述的数据处理方法,其特征在于,所述根据所述第二数据信息和所述候选数据信息,从所述候选数据信息中筛选得到目标数据信息,包括:
根据预设时间长度对所述目标时间段进行划分处理,得第一过滤时间段和第二过滤时间段;
对所述第一过滤时间段中的所述候选数据信息进行筛选处理,得到所述第一过滤时间段的第三信息集合;
对所述第三信息集合进行去重处理,得到第四信息集合;
根据所述第四信息集合,对所述第二过滤时间段中的所述候选数据信息进行筛选处理,得到所述第二过滤时间段的第五信息集合;
获取所述第四信息集合和所述第五信息集合的并集,得到目标数据信息。
10.根据权利要求9所述的数据处理方法,其特征在于,所述对所述第一过滤时间段中的所述候选数据信息进行筛选处理,得到所述第一过滤时间段的第三信息集合,包括:
遍历所述第一过滤时间段中的所述候选数据信息,筛选出与所述第二数据信息具有相同数据类型的第二备选数据信息;
对所述第二备选数据信息进行归集处理,得到所述第一过滤时间段的第三信息集合。
11.根据权利要求9所述的数据处理方法,其特征在于,所述根据所述第四信息集合,对所述第二过滤时间段中的所述候选数据信息进行筛选处理,得到所述第二过滤时间段的第五信息集合,包括:
遍历所述第二过滤时间段中的所述候选数据信息,筛选出与所述第二数据信息具有相同数据类型且不属于所述第四信息集合的第三备选数据信息;
对所述第三备选数据信息进行归集处理,得到所述第二过滤时间段的第五信息集合。
12.根据权利要求1至11任意一项所述的数据处理方法,其特征在于,所述数据处理方法还包括:
对所述目标数据信息进行信息推送处理,使得所述目标数据信息被展示。
13.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至12任意一项所述的数据处理方法。
14.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至12任意一项所述的数据处理方法。
15.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述计算机设备执行如权利要求1至12任意一项所述的数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083803.4A CN115809160A (zh) | 2021-09-14 | 2021-09-14 | 数据处理方法、电子设备、存储介质及程序产品 |
PCT/CN2022/091576 WO2023040300A1 (zh) | 2021-09-14 | 2022-05-07 | 数据处理方法、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083803.4A CN115809160A (zh) | 2021-09-14 | 2021-09-14 | 数据处理方法、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115809160A true CN115809160A (zh) | 2023-03-17 |
Family
ID=85481075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111083803.4A Pending CN115809160A (zh) | 2021-09-14 | 2021-09-14 | 数据处理方法、电子设备、存储介质及程序产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115809160A (zh) |
WO (1) | WO2023040300A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680752B (zh) * | 2023-05-23 | 2024-03-19 | 杭州水立科技有限公司 | 一种基于数据处理的水利工程安全监测方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017197566A1 (zh) * | 2016-05-16 | 2017-11-23 | 华为技术有限公司 | 一种日志显示的方法、设备及系统 |
US10721256B2 (en) * | 2018-05-21 | 2020-07-21 | Oracle International Corporation | Anomaly detection based on events composed through unsupervised clustering of log messages |
CN109885456A (zh) * | 2019-02-20 | 2019-06-14 | 武汉大学 | 一种基于系统日志聚类的多类型故障事件预测方法及装置 |
CN112448836B (zh) * | 2019-09-04 | 2023-09-15 | 中兴通讯股份有限公司 | 故障根因确定方法、装置、服务器和计算机可读介质 |
CN112612887A (zh) * | 2020-12-25 | 2021-04-06 | 北京天融信网络安全技术有限公司 | 日志处理方法、装置、设备和存储介质 |
-
2021
- 2021-09-14 CN CN202111083803.4A patent/CN115809160A/zh active Pending
-
2022
- 2022-05-07 WO PCT/CN2022/091576 patent/WO2023040300A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023040300A1 (zh) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102520044B1 (ko) | 경보 로그 압축 방법, 장치, 및 시스템, 및 저장 매체 | |
WO2022048168A1 (zh) | 一种用于故障预测神经网络模型的训练方法与设备 | |
CN110851321B (zh) | 一种业务告警方法、设备及存储介质 | |
CN111309565B (zh) | 告警处理方法、装置、电子设备以及计算机可读存储介质 | |
CN107729210B (zh) | 分布式服务集群的异常诊断方法和装置 | |
CN110928718A (zh) | 一种基于关联分析的异常处理方法、系统、终端及介质 | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN109034580B (zh) | 一种基于大数据分析的信息系统整体健康度评估方法 | |
CN107733737A (zh) | 一种监控网络流量异常的方法 | |
CN113112038B (zh) | 智能监测与诊断分析系统、装置、电子设备及存储介质 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN115033463B (zh) | 一种系统异常类型确定方法、装置、设备和存储介质 | |
CN114338372B (zh) | 网络信息安全监控方法及系统 | |
CN113505048A (zh) | 基于应用系统画像的统一监控平台及实现方法 | |
CN115865649A (zh) | 一种智能运维管理控制方法、系统和存储介质 | |
CN111224807A (zh) | 分布式日志处理方法、装置、设备及计算机存储介质 | |
CN115809160A (zh) | 数据处理方法、电子设备、存储介质及程序产品 | |
CN117148045A (zh) | 配电网运行状态的故障研判管理系统 | |
CN117456707B (zh) | 一种智能母线槽温湿度异常预警方法及装置 | |
CN115561546A (zh) | 电力系统异常检测报警系统 | |
CN113938306B (zh) | 一种基于数据清洗规则的可信认证方法及系统 | |
CN116823233B (zh) | 一种基于全周期运维的用户数据处理方法及系统 | |
CN117421188A (zh) | 告警定级方法、装置、设备及可读存储介质 | |
CN111815449B (zh) | 一种基于流计算的多主机行情系统的异常检测方法及系统 | |
CN111274089B (zh) | 一种基于旁路技术的服务器异常行为感知系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |