CN117688306A - 运维告警方法、装置、存储介质及电子设备 - Google Patents
运维告警方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117688306A CN117688306A CN202311723838.9A CN202311723838A CN117688306A CN 117688306 A CN117688306 A CN 117688306A CN 202311723838 A CN202311723838 A CN 202311723838A CN 117688306 A CN117688306 A CN 117688306A
- Authority
- CN
- China
- Prior art keywords
- maintenance data
- data set
- maintenance
- processed
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 421
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000001514 detection method Methods 0.000 claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000004140 cleaning Methods 0.000 claims abstract description 25
- 238000003064 k means clustering Methods 0.000 claims abstract description 21
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000012217 deletion Methods 0.000 claims description 23
- 230000037430 deletion Effects 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 abstract description 23
- 230000008569 process Effects 0.000 description 17
- 230000002159 abnormal effect Effects 0.000 description 10
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013112 stability test Methods 0.000 description 1
- 238000001744 unit root test Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种运维告警方法、装置、存储介质及电子设备。该方法包括:通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集;对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集;通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集;依据目标运维数据集进行告警分析,得到告警分析结果。本发明解决了现有技术中依据固定规则进行数据预处理,存在数据预处理准确性低导致运维告警准确性较低的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种运维告警方法、装置、存储介质及电子设备。
背景技术
数据预处理是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。目前,现有技术中在生产运维过程中,通常依据固定规则进行数据预处理,并依据预处理后的运维数据进行运维告警分析,存在数据预处理准确性低导致运维告警准确性较低的问题,运维告警误报率较高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种运维告警方法、装置、存储介质及电子设备,以至少解决现有技术中依据固定规则进行数据预处理,存在数据预处理准确性低导致运维告警准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种运维告警方法,包括:获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,目标算法至少包括二次插值算法;对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,其中,检测结果用于表征时间序列是否为平稳时间序列;通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集;依据目标运维数据集进行告警分析,得到告警分析结果,其中,告警分析结果用于指示是否进行告警。
进一步地,通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,包括:计算待处理的运维数据集中的每个运维数据的缺失率;依据每个运维数据的缺失率,从待处理的运维数据集中剔除缺失率大于缺失率阈值的运维数据,得到第二运维数据集;通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,得到处理后的运维数据集。
进一步地,通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,得到处理后的运维数据集,包括:确定第二运维数据集中的运维数据的缺失值,并确定与缺失值相邻的前一时刻运维数据和后一时刻运维数据;计算前一时刻运维数据和后一时刻运维数据的均值,并依据均值对缺失值进行填充处理,得到处理后的运维数据集。
进一步地,对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,包括:通过单位根检验算法计算时间序列具有单位根的概率值,并对概率值与预设阈值进行比较;若概率值小于预设阈值,则将时间序列不是平稳时间序列作为检测结果;若概率值大于或等于预设阈值,则将时间序列为平稳时间序列作为检测结果。
进一步地,依据检测结果,从处理后的运维数据集中确定第一运维数据集,包括:依据检测结果,从处理后的运维数据集中确定目标运维数据,并剔除目标运维数据,得到剔除后的运维数据,其中,目标运维数据为不是平稳时间序列的时间序列对应的运维数据;依据剔除后的运维数据组成第一运维数据集。
进一步地,通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,包括:通过主成分分析法对第一运维数据集中的运维数据进行数据降维处理,得到降维后的运维数据集;对降维后的运维数据集进行特征提取处理,得到多个运维数据特征。
进一步地,通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集,包括:依据CH指标确定初始聚类簇数N,并通过K均值聚类算法随机生成N个初始簇心,其中,N为正整数;计算每个运维数据特征与N个初始簇心之间的距离,并依据距离确定每个运维数据特征对应的聚类簇;依据聚类簇进行迭代聚类,直至满足预设迭代终止条件,得到目标运维数据集。
根据本发明实施例的另一方面,还提供了一种运维告警装置,包括:获取模块,用于获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,目标算法至少包括二次插值算法;确定模块,用于对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,其中,检测结果用于表征时间序列是否为平稳时间序列;第一处理模块,用于通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集;第二处理模块,用于依据目标运维数据集进行告警分析,得到告警分析结果,其中,告警分析结果用于指示是否进行告警。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的运维告警方法。
根据本发明实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的运维告警方法。
在本发明实施例中,采用依据二次插值和剔除缺失率方法进行数据预处理的方式,首先获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,然后对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,然后通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集,然后依据目标运维数据集进行告警分析,得到告警分析结果。其中,目标算法至少包括二次插值算法,检测结果用于表征时间序列是否为平稳时间序列,告警分析结果用于指示是否进行告警。
在上述过程中,通过二次插值算法对待处理的运维数据集中的运维数据进行数据清洗处理,并对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,能够有效提高数据预处理的准确性,降低异常数据对后续告警分析的干扰,减少异常数据导致的误差,然后将经过数据清洗和平稳性检测的数据集合进行特征生成与选择,从而能够依据目标运维数据集进行告警分析,有效地提高了运维告警准确性,降低了运维告警误报率。
由此可见,通过本发明的技术方案,达到了降低运维告警误报率的目的,从而实现了提高运维告警准确性的技术效果,进而解决了现有技术中依据固定规则进行数据预处理,存在数据预处理准确性低导致运维告警准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的运维告警方法的流程图;
图2是根据本发明实施例的一种可选的数据预处理的流程示意图;
图3是根据本发明实施例的一种可选的运维告警装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本发明实施例,提供了一种运维告警方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的运维告警方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,目标算法至少包括二次插值算法。
在上述步骤中,可以通过应用系统、处理器、电子设备等装置获取待处理的运维数据集,可选地,通过运维告警系统获取待处理的运维数据集,其中,运维数据可以是目标业务的运维数据,例如,支付业务等。可选地,通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,目标算法包括二次插值算法和剔除缺失率方法,例如,采用二次插值算法对持续且波动不大数据进行清洗,并剔除缺失率在30%以上的运维数据,对于缺失率在30%以下的运维数据,选用临近2个时刻的均值进行替代。
步骤S102,对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,其中,检测结果用于表征时间序列是否为平稳时间序列。
可选地,依据对处理后的运维数据集中的运维数据的时间序列进行平稳性检测得到的检测结果,可以确定出第一运维数据集,其中,第一运维数据集由平稳时间序列对应的运维数据组成,例如,通过进行平稳性检测,可以将不稳定的时间序列对应的运维数据剔除,得到第一运维数据集。
步骤S103,通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集。
步骤S104,依据目标运维数据集进行告警分析,得到告警分析结果,其中,告警分析结果用于指示是否进行告警。
可选地,将经过数据清洗和平稳性检测的数据集合进行特征生成与选择,从而能够依据目标运维数据集进行告警分析,例如,通过主成分分析法对第一运维数据集进行特征提取处理,可以得到多个运维数据特征,然后通过K均值聚类算法对多个运维数据特征进行特征选择处理,可以得到数据预处理后的数据集(即目标运维数据集),并进行告警分析,从而可以确定出是否进行告警,例如,若告警分析结果为告警,则生成相应的告警提示信息。
基于上述步骤S101至步骤S104所限定的方案,可以获知,在本发明实施例中,采用依据二次插值和剔除缺失率方法进行数据预处理的方式,首先获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,然后对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,然后通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集,然后依据目标运维数据集进行告警分析,得到告警分析结果。其中,目标算法至少包括二次插值算法,检测结果用于表征时间序列是否为平稳时间序列,告警分析结果用于指示是否进行告警。
容易注意到的是,在上述过程中,通过二次插值算法对待处理的运维数据集中的运维数据进行数据清洗处理,并对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,能够有效提高数据预处理的准确性,降低异常数据对后续告警分析的干扰,减少异常数据导致的误差,然后将经过数据清洗和平稳性检测的数据集合进行特征生成与选择,从而能够依据目标运维数据集进行告警分析,有效地提高了运维告警准确性,降低了运维告警误报率。
由此可见,通过本发明的技术方案,达到了降低运维告警误报率的目的,从而实现了提高运维告警准确性的技术效果,进而解决了现有技术中依据固定规则进行数据预处理,存在数据预处理准确性低导致运维告警准确性较低的技术问题。
在一种可选的实施例中,通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,包括:计算待处理的运维数据集中的每个运维数据的缺失率;依据每个运维数据的缺失率,从待处理的运维数据集中剔除缺失率大于缺失率阈值的运维数据,得到第二运维数据集;通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,得到处理后的运维数据集。
在一种可选的实施例中,通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,得到处理后的运维数据集,包括:确定第二运维数据集中的运维数据的缺失值,并确定与缺失值相邻的前一时刻运维数据和后一时刻运维数据;计算前一时刻运维数据和后一时刻运维数据的均值,并依据均值对缺失值进行填充处理,得到处理后的运维数据集。
可选地,在通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集的过程中,首先计算待处理的运维数据集中的每个运维数据的缺失率,然后依据每个运维数据的缺失率,从待处理的运维数据集中剔除缺失率大于缺失率阈值(例如,30%)的运维数据,得到由剔除后的运维数据组成的第二运维数据集,例如,剔除缺失率在30%以上的运维数据,得到第二运维数据集。
可选地,通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,可以得到处理后的运维数据集。可选地,首先确定第二运维数据集中的运维数据的缺失值,并确定与缺失值相邻的前一时刻运维数据和后一时刻运维数据,然后计算前一时刻运维数据和后一时刻运维数据的均值,并依据均值对缺失值进行填充处理,得到处理后的运维数据集。例如,在剔除缺失率在30%以上的运维数据之后,对于缺失率在30%以下的运维数据,选用临近2个时刻的均值进行替代。
需要说明的是,通过上述过程处理后的数据,间隔均匀,与神经网络模型的时序处理更加匹配,并且较真实地还原了缺失数据,有效提高数据预处理的准确性,降低异常数据对后续告警分析的干扰,减少异常数据导致的误差。
在一种可选的实施例中,对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,包括:通过单位根检验算法计算时间序列具有单位根的概率值,并对概率值与预设阈值进行比较;若概率值小于预设阈值,则将时间序列不是平稳时间序列作为检测结果;若概率值大于或等于预设阈值,则将时间序列为平稳时间序列作为检测结果。
可选地,在对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果的过程中,首先通过单位根检验算法计算时间序列具有单位根的概率值,并对概率值与预设阈值(例如,0.05)进行比较,若概率值小于预设阈值,则将时间序列不是平稳时间序列作为检测结果;若概率值大于或等于预设阈值,则将时间序列为平稳时间序列作为检测结果。
具体地,稳定性是指时间序列的统计性质关于时间平移的不变性,不稳定的时间序列在回归分析等问题中会造成“伪回归”等问题,因此,对于经过初步筛选的运维数据(即处理后的运维数据集中的运维数据),需要判断这些数据的时间序列是否稳定。可选地,选用95%的置信度进行单位根检验,即当P值小于0.05时,时间序列不具有单位根,相应的时间序列不稳定,将不参与后期数据分析。例如,每5分钟取一个点,则1个小时12个点,一个月按30天算12*24*30=8640个点,然后把数值最高的5%的流量去掉,剩下的95%为正常流量范围,即采集点数是8208个点,有432个点属于异常流量范围。
需要说明的是,经过数据清洗和平稳性检测,得到了符合标准的关键运维数据,为后续进行运维告警分析提供了数据基础,从而能够提高运维告警准确性,降低运维告警误报率。
在一种可选的实施例中,依据检测结果,从处理后的运维数据集中确定第一运维数据集,包括:依据检测结果,从处理后的运维数据集中确定目标运维数据,并剔除目标运维数据,得到剔除后的运维数据,其中,目标运维数据为不是平稳时间序列的时间序列对应的运维数据;依据剔除后的运维数据组成第一运维数据集。
可选地,在依据检测结果,从处理后的运维数据集中确定第一运维数据集的过程中,首先依据检测结果,可以从处理后的运维数据集中确定出不稳定的时间序列对应的运维数据(即目标运维数据),然后将不稳定的时间序列对应的运维数据剔除,得到剔除后的运维数据,并依据剔除后的运维数据组成第一运维数据集。
需要说明的是,通过上述过程,得到了符合标准的关键运维数据,为后续进行运维告警分析提供了数据基础,从而能够提高运维告警准确性,降低运维告警误报率。
在一种可选的实施例中,通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,包括:通过主成分分析法对第一运维数据集中的运维数据进行数据降维处理,得到降维后的运维数据集;对降维后的运维数据集进行特征提取处理,得到多个运维数据特征。
可选地,在通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征的过程中,首先通过主成分分析法对第一运维数据集中的运维数据进行数据降维处理,得到降维后的运维数据集,然后对降维后的运维数据集进行特征提取处理,得到多个运维数据特征。
例如,经过数据清洗和平稳性检测,得到一组M×N×T维的运维数据,其中,M为网元数目,N为筛选后的指标数目,T为时间段,采用主成分分析法进行降维,其中,主成分分析法降维分为时间上的降维和指标上的降维,对于时间上的降维,从6个特征指标(最小值Min、最大值Max、上分位数Q1、均值Mean、下分位数Q3、中位数Median)中选取两个周期特征,最终将以小时为单位的数据简化为以天为单位的描述性指标,即新的指标维度为M×2N;指标上的降维与时间上的降维类似,在时间上的降维完成后,利用主成分分析法对2N维特征构造出3个综合性指标(即运维数据特征),用于最终的聚类,即最终用于聚类算法的指标维度简化为M×3。
需要说明的是,通过上述过程,降低了后续进行聚类的数据计算量,提高了运维告警分析效率。
在一种可选的实施例中,通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集,包括:依据CH指标确定初始聚类簇数N,并通过K均值聚类算法随机生成N个初始簇心,其中,N为正整数;计算每个运维数据特征与N个初始簇心之间的距离,并依据距离确定每个运维数据特征对应的聚类簇;依据聚类簇进行迭代聚类,直至满足预设迭代终止条件,得到目标运维数据集。
可选地,在通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集的过程中,首先依据CH指标确定初始聚类簇数N,并通过K均值聚类算法随机生成N个初始簇心,然后计算每个运维数据特征与N个初始簇心之间的距离,并依据距离确定每个运维数据特征对应的聚类簇,然后依据聚类簇进行迭代聚类,直至满足预设迭代终止条件(例如,左右的簇不再改变),得到目标运维数据集。
具体地,首先采用CH(Calinski-Harabasz)指标来确定最优簇数(即初始聚类簇数N),同时通过多次聚类的方式得到最稳定的聚类结果。其中,CH指标通过类内离差矩阵描述紧密度,类间离差矩阵描述分离度,CH越大代表自身越紧密,类与类之间越分散,即聚类结果更优。
具体地,在给定最优簇数后,通过K均值聚类算法随机生成N个初始簇心,将数据集中的数据按照距离簇心的远近分到各簇中,再将各簇中的数据求平均值作为新的簇心,重复上述步骤,直至左右的簇不再改变,得到目标运维数据集。
图2是根据本发明实施例的一种可选的数据预处理的流程示意图,如图2所示,首先进行数据采集,获取运维数据集,然后进行数据清洗和单指标时序数据平稳性检验,对于不平稳的时序数据进行差分处理,对于平稳的时序数据提取24小时周期向量X,并基于单指标周期向量X特征构造Z,然后由全字段Z主成分分析得到综合向量V,然后考察指标间协方差矩阵,并进行新维度命名和低纬可视化分析样本分布,然后通过K-S检验分布删除异常样本,并计算CH指标确定K值最佳簇数后进行聚类,得到聚类结果,并结合新维度指标含义对各类结果进行解读。
需要说明的是,在本发明实施例中,采用依据二次插值和剔除缺失率方法进行数据预处理的方式,首先获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,然后对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,然后通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集,然后依据目标运维数据集进行告警分析,得到告警分析结果。其中,目标算法至少包括二次插值算法,检测结果用于表征时间序列是否为平稳时间序列,告警分析结果用于指示是否进行告警。
在上述过程中,通过二次插值算法对待处理的运维数据集中的运维数据进行数据清洗处理,并对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,能够有效提高数据预处理的准确性,降低异常数据对后续告警分析的干扰,减少异常数据导致的误差,然后将经过数据清洗和平稳性检测的数据集合进行特征生成与选择,从而能够依据目标运维数据集进行告警分析,有效地提高了运维告警准确性,降低了运维告警误报率。
由此可见,通过本发明的技术方案,达到了降低运维告警误报率的目的,从而实现了提高运维告警准确性的技术效果,进而解决了现有技术中依据固定规则进行数据预处理,存在数据预处理准确性低导致运维告警准确性较低的技术问题。
实施例2
根据本发明实施例,提供了一种运维告警装置的实施例,其中,图3是根据本发明实施例的一种可选的运维告警装置的示意图,如图3所示,该装置包括:获取模块301,用于获取待处理的运维数据集,并通过目标算法对待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,目标算法至少包括二次插值算法;确定模块302,用于对处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据检测结果,从处理后的运维数据集中确定第一运维数据集,其中,检测结果用于表征时间序列是否为平稳时间序列;第一处理模块303,用于通过主成分分析法对第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对多个运维数据特征进行特征选择处理,得到目标运维数据集;第二处理模块304,用于依据目标运维数据集进行告警分析,得到告警分析结果,其中,告警分析结果用于指示是否进行告警。
需要说明的是,上述的获取模块301、确定模块302、第一处理模块303以及第二处理模块304对应于上述实施例中的步骤S101至步骤S104,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选地,获取模块包括:计算模块,用于计算待处理的运维数据集中的每个运维数据的缺失率;第三处理模块,用于依据每个运维数据的缺失率,从待处理的运维数据集中剔除缺失率大于缺失率阈值的运维数据,得到第二运维数据集;第四处理模块,用于通过二次插值算法对第二运维数据集中的运维数据进行缺失值填充处理,得到处理后的运维数据集。
可选地,第四处理模块包括:第一确定模块,用于确定第二运维数据集中的运维数据的缺失值,并确定与缺失值相邻的前一时刻运维数据和后一时刻运维数据;第五处理模块,用于计算前一时刻运维数据和后一时刻运维数据的均值,并依据均值对缺失值进行填充处理,得到处理后的运维数据集。
可选地,确定模块包括:比较模块,用于通过单位根检验算法计算时间序列具有单位根的概率值,并对概率值与预设阈值进行比较;第二确定模块,用于若概率值小于预设阈值,则将时间序列不是平稳时间序列作为检测结果;第三确定模块,用于若概率值大于或等于预设阈值,则将时间序列为平稳时间序列作为检测结果。
可选地,确定模块还包括:第四确定模块,用于依据检测结果,从处理后的运维数据集中确定目标运维数据,并剔除目标运维数据,得到剔除后的运维数据,其中,目标运维数据为不是平稳时间序列的时间序列对应的运维数据;生成模块,用于依据剔除后的运维数据组成第一运维数据集。
可选地,第一处理模块包括:第六处理模块,用于通过主成分分析法对第一运维数据集中的运维数据进行数据降维处理,得到降维后的运维数据集;第七处理模块,用于对降维后的运维数据集进行特征提取处理,得到多个运维数据特征。
可选地,第一处理模块还包括:第五确定模块,用于依据CH指标确定初始聚类簇数N,并通过K均值聚类算法随机生成N个初始簇心,其中,N为正整数;第六确定模块,用于计算每个运维数据特征与N个初始簇心之间的距离,并依据距离确定每个运维数据特征对应的聚类簇;第八处理模块,用于依据聚类簇进行迭代聚类,直至满足预设迭代终止条件,得到目标运维数据集。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的运维告警方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的运维告警方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种运维告警方法,其特征在于,包括:
获取待处理的运维数据集,并通过目标算法对所述待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,所述目标算法至少包括二次插值算法;
对所述处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据所述检测结果,从所述处理后的运维数据集中确定第一运维数据集,其中,所述检测结果用于表征所述时间序列是否为平稳时间序列;
通过主成分分析法对所述第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对所述多个运维数据特征进行特征选择处理,得到目标运维数据集;
依据所述目标运维数据集进行告警分析,得到告警分析结果,其中,所述告警分析结果用于指示是否进行告警。
2.根据权利要求1所述的方法,其特征在于,通过目标算法对所述待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,包括:
计算所述待处理的运维数据集中的每个运维数据的缺失率;
依据所述每个运维数据的缺失率,从所述待处理的运维数据集中剔除缺失率大于缺失率阈值的运维数据,得到第二运维数据集;
通过所述二次插值算法对所述第二运维数据集中的运维数据进行缺失值填充处理,得到所述处理后的运维数据集。
3.根据权利要求2所述的方法,其特征在于,通过所述二次插值算法对所述第二运维数据集中的运维数据进行缺失值填充处理,得到所述处理后的运维数据集,包括:
确定所述第二运维数据集中的运维数据的缺失值,并确定与所述缺失值相邻的前一时刻运维数据和后一时刻运维数据;
计算所述前一时刻运维数据和所述后一时刻运维数据的均值,并依据所述均值对所述缺失值进行填充处理,得到所述处理后的运维数据集。
4.根据权利要求1所述的方法,其特征在于,对所述处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,包括:
通过单位根检验算法计算所述时间序列具有单位根的概率值,并对所述概率值与预设阈值进行比较;
若所述概率值小于所述预设阈值,则将所述时间序列不是平稳时间序列作为所述检测结果;
若所述概率值大于或等于所述预设阈值,则将所述时间序列为平稳时间序列作为所述检测结果。
5.根据权利要求1所述的方法,其特征在于,依据所述检测结果,从所述处理后的运维数据集中确定第一运维数据集,包括:
依据所述检测结果,从所述处理后的运维数据集中确定目标运维数据,并剔除所述目标运维数据,得到剔除后的运维数据,其中,所述目标运维数据为不是平稳时间序列的时间序列对应的运维数据;
依据所述剔除后的运维数据组成所述第一运维数据集。
6.根据权利要求1所述的方法,其特征在于,通过主成分分析法对所述第一运维数据集进行特征提取处理,得到多个运维数据特征,包括:
通过所述主成分分析法对所述第一运维数据集中的运维数据进行数据降维处理,得到降维后的运维数据集;
对所述降维后的运维数据集进行特征提取处理,得到所述多个运维数据特征。
7.根据权利要求1所述的方法,其特征在于,通过K均值聚类算法对所述多个运维数据特征进行特征选择处理,得到目标运维数据集,包括:
依据CH指标确定初始聚类簇数N,并通过所述K均值聚类算法随机生成N个初始簇心,其中,N为正整数;
计算每个运维数据特征与所述N个初始簇心之间的距离,并依据所述距离确定所述每个运维数据特征对应的聚类簇;
依据所述聚类簇进行迭代聚类,直至满足预设迭代终止条件,得到所述目标运维数据集。
8.一种运维告警装置,其特征在于,包括:
获取模块,用于获取待处理的运维数据集,并通过目标算法对所述待处理的运维数据集中的运维数据进行数据清洗处理,得到处理后的运维数据集,其中,所述目标算法至少包括二次插值算法;
确定模块,用于对所述处理后的运维数据集中的运维数据的时间序列进行平稳性检测,得到检测结果,并依据所述检测结果,从所述处理后的运维数据集中确定第一运维数据集,其中,所述检测结果用于表征所述时间序列是否为平稳时间序列;
第一处理模块,用于通过主成分分析法对所述第一运维数据集进行特征提取处理,得到多个运维数据特征,并通过K均值聚类算法对所述多个运维数据特征进行特征选择处理,得到目标运维数据集;
第二处理模块,用于依据所述目标运维数据集进行告警分析,得到告警分析结果,其中,所述告警分析结果用于指示是否进行告警。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的运维告警方法。
10.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至7任一项中所述的运维告警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723838.9A CN117688306A (zh) | 2023-12-14 | 2023-12-14 | 运维告警方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311723838.9A CN117688306A (zh) | 2023-12-14 | 2023-12-14 | 运维告警方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117688306A true CN117688306A (zh) | 2024-03-12 |
Family
ID=90129851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311723838.9A Pending CN117688306A (zh) | 2023-12-14 | 2023-12-14 | 运维告警方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688306A (zh) |
-
2023
- 2023-12-14 CN CN202311723838.9A patent/CN117688306A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10031829B2 (en) | Method and system for it resources performance analysis | |
CN106951984B (zh) | 一种系统健康度动态分析预测方法及装置 | |
CN110993103A (zh) | 疾病风险预测模型的建立方法和疾病保险产品的推荐方法 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN111160329A (zh) | 一种根因分析的方法及装置 | |
CN111143103A (zh) | 一种关联关系确定方法、装置、设备及可读存储介质 | |
CN112819476A (zh) | 风险识别方法、装置、非易失性存储介质和处理器 | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
CN115858606A (zh) | 时序数据的异常检测方法、装置、设备及存储介质 | |
CN116610821B (zh) | 一种基于知识图谱的企业风险分析方法、系统和存储介质 | |
CN113835947A (zh) | 一种基于异常识别结果确定异常原因的方法和系统 | |
CN115759263A (zh) | 一种基于因果推断的策略效果评估方法及装置 | |
CN117688306A (zh) | 运维告警方法、装置、存储介质及电子设备 | |
CN116933119A (zh) | 一种基于卷积神经网络的信号数据去除趋势方法 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114092216A (zh) | 企业信贷评级方法、装置、计算机设备和存储介质 | |
CN112435133A (zh) | 基于图分析的医保联合欺诈检测方法、装置及设备 | |
CN113064944A (zh) | 数据的处理方法和装置 | |
CN114726749B (zh) | 数据异常检测模型获取方法、装置、设备及介质 | |
CN116448062B (zh) | 一种桥梁沉降变形检测方法、装置、计算机及存储介质 | |
CN117522419B (zh) | 一种应用于客户关系管理系统的资源分配方法 | |
CN117131445B (zh) | 一种异常交易检测方法及系统 | |
CN116739752A (zh) | 一种消息提醒方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |