CN115460061A - 基于智能运维场景的健康度评价方法及装置 - Google Patents

基于智能运维场景的健康度评价方法及装置 Download PDF

Info

Publication number
CN115460061A
CN115460061A CN202210926827.XA CN202210926827A CN115460061A CN 115460061 A CN115460061 A CN 115460061A CN 202210926827 A CN202210926827 A CN 202210926827A CN 115460061 A CN115460061 A CN 115460061A
Authority
CN
China
Prior art keywords
configuration
data
time
abnormal
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210926827.XA
Other languages
English (en)
Other versions
CN115460061B (zh
Inventor
杨嵘
谢程利
刘洋
郭承禹
王磊
邬宏伟
王凤梅
蒋卓君
刘庆云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN202210926827.XA priority Critical patent/CN115460061B/zh
Publication of CN115460061A publication Critical patent/CN115460061A/zh
Priority to PCT/CN2023/107490 priority patent/WO2024027487A1/zh
Application granted granted Critical
Publication of CN115460061B publication Critical patent/CN115460061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0889Techniques to speed-up the configuration process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于智能运维场景的健康度评价方法及装置。所述方法包括:收集运维系统的日志数据和配置数据;对所述日志数据和所述配置数据进行预处理,以构建业务关键信息数据库;基于配置id在各设定时间间隔中的数据与标签,分别训练向量自回归模型与LSTM‑AE模型,以获取每一配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数;综合所述配置id在预测时间的向量自回归模型异常分数和LSTM‑AE模型异常分数,得到所述配置id在预测时间的异常分数;基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度。本发明实现了对于智能运维场景的健康度评估。

Description

基于智能运维场景的健康度评价方法及装置
技术领域
本发明涉及系统健康评价体系领域,尤其涉及一种基于智能运维场景的健康度评价方法及装置。
背景技术
随着互联网快速的发展,智能运维系统业务能力的不断增强,系统朝着架构异构化,逻辑复杂化,以及指标多样化方向快速发展。然而对于系统的业务数据进行状态监控仍采用手工监控的方式,这对于操作人员有较高的经验与技术要求,且通常不能迅速发现异常并找到问题所在,导致从出现异常到异常修复的时间间隔比较长,严重影响业务的可靠稳定运行,并且系统整体的健康状况以及可靠性无法得到有效的评估。
由于各类业务系统内部存在的复杂的耦合关系,对于系统整体的健康度态势的评估,还存在评价手段单一,缺乏多维度,立体式评估方法,缺少深入分析和整体态势研判的能力。
现有技术存在的缺点如下:
1)通过手工监控的方式来分析异常情况评估系统健康度,效率较低。
2)对于无标签的数据,缺乏有效的模型分析指标之间的复杂关联性,难以定义系统的健康度。
3)基于阈值的方法产生海量误报,使得操作人员无法及时处置,同时使得健康度的设计缺乏鲁棒性。
4)对于系统的健康度评估策略缺乏多维度的考量,难以形成对整体系统的态势感知能力。
因此现有技术需要一种能够快速分析智能运维系统数据的方法,保证系统的实时性,同时需要一种可以捕获指标之间复杂关联性的模型,来提供健康度的先验知识。基于上述的基础上,使用包含复杂异常关联性的异常检测结果与专家知识的权重设计,实现对于智能运维场景的健康度评估。
发明内容
为了解决上述问题,本发明提供一种基于智能运维场景的健康度评价方法及装置,以实现对于智能运维场景的健康度评估。
本发明的技术内容包括:
一种基于智能运维场景的健康度评价方法,所述方法包括:
收集运维系统的日志数据和配置数据;
对所述日志数据和所述配置数据进行预处理,以构建业务关键信息数据库;其中,所述业务关键信息数据库中的数据包括:时间、配置id、配置目标和配置量;
基于配置id在各设定时间间隔中的数据与标签,分别训练向量自回归模型与LSTM-AE模型,以获取每一配置id在预测时间的向量自回归模型异常分数和LSTM-AE模型异常分数;其中,所述标签包括:异常情况和指标之间的关联影响;
综合所述配置id在预测时间的向量自回归模型异常分数和LSTM-AE模型异常分数,得到所述配置id在预测时间的异常分数;
基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度。
进一步地,所述对所述日志数据和所述配置数据进行预处理,,以构建业务关键信息数据库,包括:
对所述日志数据和所述配置数据进行数据清洗;
应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据;
对所述时序数据进行特征提取;所述特征包括:时间、配置id、配置目标和配置量;
基于所述特征,构建业务关键信息数据库。
进一步地,所述应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据之前,还包括:
使用拉宾卡普方法,对配置进行分组。
进一步地,所述应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据,包括:
根据时间序列的时间列进行差分计算;
对于不满足差分距离的时间数据插入时间值,以使所述不满足差分距离的时间数据满足时序递增要求;
根据滑动平均插值法,对不满足差分距离的时间数据进行填充。
进一步地,所述基于配置id在各设定时间间隔中的数据与标签,训练向量自回归模型,以获取每一配置id在预测时间的向量自回归模型异常分数,包括:
基于所述配置id在设定时间间隔t中的数据与标签训练向量自回归模型,得到该配置id在设定时间间隔t+1的预测值;
根据所述配置id在设定时间间隔t+1中的预测值与标签,调整所述向量自回归模型的参数,并基于所述配置id在设定时间间隔t+1中的数据与标签训练向量自回归模型,得到该配置id在设定时间间隔t+2的预测值;
获取所述配置id在预测时间的预测值,并计算预测时间的残差值;
计算训练数据残差的均值与训练数据残差的标准差;
计算指标异常分数=|(预测值-真实值)-训练数据残差的均值|/训练数据残差的标准差;
计算总体异常分数=预测时间的残差值与训练数据残差均值的马尔科夫距离;
基于所述指标异常分数与所述总体异常分数,得到所述配置id在预测时间的向量自回归模型异常分数。
进一步地,所述基于配置id在各设定时间间隔中的数据与标签,训练LSTM-AE模型,以获取每一配置id在预测时间的LSTM-AE模型异常分数,包括:
对所述配置id在设定时间间隔t中的数据进行编码器的特征压缩;
对压缩后的特征数据进行解码器的特征重构,并所述配置id在设定时间间隔t中的标签,调整所述编码器与所述解码器的参数;
基于训练好的编码器,对所述配置id在预测时间中的数据进行特征压缩;
基于训练好的解码器,对预测时间中的压缩数据进行特征重构,以得到重构值;
将所述重构值作为所述配置id在预测时间的LSTM-AE模型异常分数。
进一步地,所述基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度,包括:
基于专家知识,将所述配置id分类为对于系统影响较大的配置id和对于系统影响较小的配置id;
分别设置对于系统影响较大的配置id和对于系统影响较小的配置id的权重;
基于各配置id在预测时间的异常分数、异常的日志统计量时间、日志统计量的总时间、异常的配置量时间、配置量总时间以及所述权重,得到所述运维系统在预测时间的健康度f(t),其中t表示预测时间。
进一步地,所述健康度
Figure BDA0003779858200000031
其中
Figure BDA0003779858200000032
Figure BDA0003779858200000033
其中,J1i表示第i个配置不可用对系统影响小,
Figure BDA0003779858200000034
表示配置不可用对系统影响大时的权重,J2i表示第i个配置不可用对系统影响大,TimeEL表示异常的日志统计量时间,TimeAL表示日志统计量的总时间,WL表示日志异常对系统健康度影响的权重,TimeEP表示异常的配置量时间,TimeAP表示配置量的总时间,WP表示配置异常对系统健康度影响的权重。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为处理器运行时执行上述任一所述方法。
一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述方法。
与现有技术相比,本发明提出的方法具有以下优点及效果:
自动化地对智能运维系统的业务数据进行收集、预处理和异常检测,结合专家经验,提出一种基于智能运维场景的健康度评价方法,通过多维度的数据分析,帮助操作人员对业务系统的整体态势进行评估,有效提升自动化运维能力,有助于操作人员及时对告警信息进行处理。为后续的基于系统健康度的研究以及工程应用提供新的思路。
附图说明
图1是本发明中智能运维业务系统健康度评估方法的流程图。
图2是本发明中智能运维业务系统健康度评估装置的功能图。
具体实施方式
下面将结合附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明特定实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本申请提出一种基于智能运维场景的健康度评价方法,如图1所示,包括如下步骤:
步骤1:数据的获取:采用专门的数据收集设备从运维系统中获取日志数据、配置数据。
数据获取时,通过系统授权的合法用户进行登录,然后通过调用日志数据接口和配置数据接口读取数据并保存到本地数据表中进行备份,并提供可被预处理模块访问的数据接口。
包括:
1)申请系统的专用监控系统的读取数据权限。
2)根据系统的采集数据的特点,设定读取数据的周期(例如为5分钟/次)。
3)进行日志数据、配置数据的读取并保存在日志数据统计表和配置数据统计表中。
步骤2:构建数据库:首先,使用数据清洗、数据集成、数据变换、周期趋势分解、数据聚类等对日志数据和配置数据进行预处理,以构建业务关键信息数据库。
首先,本发明根据专家经验,对数据收集设备采集的数据进行数据清洗。
其次,本发明应用差分滑动平均的方法,完成数据中时序数据的缺失值的填充。
由于时序数据大多数情况下存在数据缺失的情况,需要采用基于差分的滑动平均的方法,检测配置日志数据中的随机缺失值并补全,同时构建正常的配置训练数据,有效的对业务系统复杂缺失数据进行预处理。差分滑动平均方法,首先根据时间序列的时间列进行差分计算,对于不满足差分距离的时间数据(即存在缺失值)插入时间值,使其满足时序递增的要求。再根据滑动平均插值法,对该时刻的值进行填充。其作用是保证数据标准化,对接收的海量配置数据进行预处理,保证数据可用。优点是能够对于因系统问题导致的配置日志数据不全情况提供鲁棒性,同时可以根据模型需要,无监督的构建正常的数据集。
一示例中,通过设置长度为3的滑动窗口,在窗口移动的过程中,缺失值为窗口中值的平均数,直到滑动窗口中只有1个数值时,数值填充结束,生成连续时序的数据。接下来,为了保证检测的准确率,系统对原始序列进行周期趋势分解,使用局部多项式回归拟合,保留显著特征,有助于凸显海量数据中的重要特征。
另一示例中,为有助于运维人员深度了解某一个业务的不同配置的生效情况及使用效果,本发明计算残差量之前,还使用基于拉宾卡普的方法,快速的对配置进行分组分析,提升效率,保证实时的检测能力。
由于智能运维系统中的业务种类较多,需要对于特定的监控目标进行分析需要精细化的分割。因此采用基于拉宾卡普的方法对配置的业务根据目标进行聚类分析。它对配置的目标进行聚类。结合完美哈希技术,降低了对海量配置数据的处理时间,展现快速的配置聚类分析结果。拉宾卡普算法是一种基于散列的子字符串查找算法。先计算模式字符串的散列值,而后用相同的散列函数计算字符串中全部可能的M个字符的子字符串的散列值并与模式字符串的散列值比较。若是二者相同,再继续验证二者是否匹配。它的作用是目标聚类,根据特征值聚类配置的管控目标。它的优点是,对模式串和文本中的子串分别进行哈希运算,将字符串比较转化为数值比较,能够处理海量配置数据,节省系统开销,使得配置的聚类速度加快。
使用拉宾卡普的完美哈希方法,快速对配置进行分组分析。哈希表是一个根据key值直接访问数据的数据结构,记录了key和存储地址之间的映射关系,哈希函数是key值映射成地址的函数。使用完美哈希技术,可以通过不同业务的特征字段对多种复杂业务进行归类。有助于运维人员深度了解某一个业务的不同配置的生效情况及使用效果。哈希的查询效率高,有助于降低系统的开销的同时完成数据的分类划分,可以在大量数据的情况下平稳运行,可靠性较好。
最后,本发明根据专家经验,对上述处理后的时序数据进行特征提取工作,以构建业务关键信息数据库,其用于异常检测模型的输入。其中,该特征是指后续异常检测所需的数据采集时间、配置id、配置目标、配置量等属性,删除其中的无关属性及冗余内容。
步骤3:异常检测:使用集成学习的异常配置检测方法,对不同业务配置的命中量,实时检测其波动异常及多个指标之间的关联影响,并对于波动异常的指标及时间进行异常的告警,反馈给操作人员。
首先,本发明使用基于向量自回归的异常配置检测方法,首先使用数据统计方法,获取日志数据统计量,将其输入向量自回归模型中,设置模型的检测时间范围,设置异常的容忍度,模型参数的设置,实时检测其波动异常及多个指标之间的关联影响,并对于波动异常的指标及时间进行异常的告警,反馈给操作人员。具体为捕获配置数据之间的相关性。如果向量之间存在一定的相关性,那么,上一时刻的指标的观察值对下一时刻的观察值存在预测关系。
一示例中,采用向量自回归的方法对异常时间、异常配置进行检测。其主要通过时序数据中的预测目标前一段时间的数据进行模型训练,根据训练结果预测该指标下一时刻的值,依次递归直至设定的预测时间为止。对于某一时刻:
指标的异常分数=|(预测值-真实值)-训练数据残差的均值|/训练数据残差的标准差;
总体异常分数=当前残差与训练数据残差均值的马尔科夫距离。
其中总体异常分数越大,代表该时刻越异常。时间序列中,通过最小化白噪声的值来优化模型,通过最小二乘原理,估算预测值。能够很好运用指标之间的相关关系对时序数据进行预测。其作用是特征提取和时序检测,获取配置数据之间的相关性信息使用最小二乘法进行异常检测,它是轻量级的且具备可解释性。其优点是,基于统计的异常检测算法,视所有变量为内生变量,可以很好的挖掘配置数据之间的相关性特征。
其次,使用基于LSTM-AE的异常检测方法,对配置的波动异常进行检测。在无监督的条件下,模型缺少学习的目标。针对此问题,自动编码机将模型的学习目标设置为配置数据本身,并通过将配置数据映射到一个维度较低的特征空间以学习配置的主要特征和模式,则学习过后的模型可基于主要特征将配置重构出来。其中,将配置映射到低维特征空间的模块为编码器,而基于主要特征重构配置的模块为解码器。其具体实施方案如下:
(1)首先,对处理后的业务关键信息数据库的配置真实值进行特征压缩,使用的编码器其网络结构为LSTM
(2)然后,对压缩后的特征数据进行解码器的特征重构获取重构值,其使用的解码器网络结构为LSTM
(3)基于真实值与重构值的差异进行异常检测
自动编码器在对编码后的特征进行解码重构样本的过程中,会产生误差。训练自动编码器的原理是使用反向传播的方式最小化重构误差。在训练阶段,向自动编码器中输入正常数据,自动编码器通过减小重构数据和原始数据的均方误差学习正常数据的隐含特征和模式。所以在测试阶段,正常配置的重构误差比较小,而异常配置的重构误差比较大(由于模型没有学习到异常样本的隐含特征和模式)。因此,将重构误差作为该配置的异常分数。
最后,综合分析上述基于向量自回归和基于LSTM-AE的异常检测方法的异常检测结果,获取配置波动异常的指标及异常波动时间。
步骤4:系统健康度评估:使用基于异常检测与的类别权重的方法,通过异常检测结果结合专家经验的类别权重设计,计算整个业务系统的健康度。
本发明基于上述的检测结果与专家知识,并使用健康度计算公式f(t)计算出系统该周期的健康度。具体来说,结合基于集成模型的异常检测结果,获取配置业务的异常分数,其中基于专家知识构建对于系统影响较大和较小的配置内容;
1)获取专家知识预先设定的业务配置权重;
2)通过如下系统健康度模型,估算业务系统的总体健康度。
Figure BDA0003779858200000071
Figure BDA0003779858200000072
f(t)标识智能运维系统的健康度函数,g(t)标识智能运维系统健康度中间过程函数,
Figure BDA0003779858200000073
表示配置不可用对系统影响小时的权重,J1i表示第i个配置不可用对系统影响小,
Figure BDA0003779858200000074
表示配置不可用对系统影响大时的权重,J2i表示第i个配置不可用对系统影响大,TimeEL表示异常的日志统计量时间,TimeAL表示日志统计量的总时间,WL表示日志异常对系统健康度影响的权重,TimeEP表示异常的配置量时间,TimeAP表示配置量的总时间,WP表示配置异常对系统健康度影响的权重。
综上所述,针对智能运维系统业务存在不稳定性,本发明通过上述步骤,在一个周期的数据收集、数据处理、异常检测、健康度评估计算后,可获取智能运维系统该周期内的系统健康度情况,提供了可调节的业务权重接口,可根据实际情况,进行权重调节保证对系统的态势整体评估的有效性。
本发明还提供了一种基于智能运维场景的健康度评价装置,该装置的功能图如图2所示,系统的功能实现由底层监控平台和数据接口、数据预处理模块、业务分析模块、异常检测模块和系统健康度模块构成。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于智能运维场景的健康度评价方法,其特征在于,所述方法包括:
收集运维系统的日志数据和配置数据;
对所述日志数据和所述配置数据进行预处理,以构建业务关键信息数据库;其中,所述业务关键信息数据库中的数据包括:时间、配置id、配置目标和配置量;
基于配置id在各设定时间间隔中的数据与标签,分别训练向量自回归模型与LSTM-AE模型,以获取每一配置id在预测时间的向量自回归模型异常分数和LSTM-AE模型异常分数;其中,所述标签包括:异常情况和指标之间的关联影响;
综合所述配置id在预测时间的向量自回归模型异常分数和LSTM-AE模型异常分数,得到所述配置id在预测时间的异常分数;
基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度。
2.如权利要求1所述的方法,其特征在于,所述对所述日志数据和所述配置数据进行预处理,,以构建业务关键信息数据库,包括:
对所述日志数据和所述配置数据进行数据清洗;
应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据;
对所述时序数据进行特征提取;所述特征包括:时间、配置id、配置目标和配置量;
基于所述特征,构建业务关键信息数据库。
3.如权利要求2所述的方法,其特征在于,所述应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据之前,还包括:
使用拉宾卡普方法,对配置进行分组。
4.如权利要求2所述的方法,其特征在于,所述应用差分滑动平均方法,完成清洗后数据中时序数据的缺失值的填充,得到时序数据,包括:
根据时间序列的时间列进行差分计算;
对于不满足差分距离的时间数据插入时间值,以使所述不满足差分距离的时间数据满足时序递增要求;
根据滑动平均插值法,对不满足差分距离的时间数据进行填充。
5.如权利要求1所述的方法,其特征在于,所述基于配置id在各设定时间间隔中的数据与标签,训练向量自回归模型,以获取每一配置id在预测时间的向量自回归模型异常分数,包括:
基于所述配置id在设定时间间隔t中的数据与标签训练向量自回归模型,得到该配置id在设定时间间隔t+1的预测值;
根据所述配置id在设定时间间隔t+1中的预测值与标签,调整所述向量自回归模型的参数,并基于所述配置id在设定时间间隔t+1中的数据与标签训练向量自回归模型,得到该配置id在设定时间间隔t+2的预测值;
获取所述配置id在预测时间的预测值,并计算预测时间的残差值;
计算训练数据残差的均值与训练数据残差的标准差;
计算指标异常分数=|(预测值-真实值)-训练数据残差的均值|/训练数据残差的标准差;
计算总体异常分数=预测时间的残差值与训练数据残差均值的马尔科夫距离;
基于所述指标异常分数与所述总体异常分数,得到所述配置id在预测时间的向量自回归模型异常分数。
6.如权利要求1所述的方法,其特征在于,所述基于配置id在各设定时间间隔中的数据与标签,训练LSTM-AE模型,以获取每一配置id在预测时间的LSTM-AE模型异常分数,包括:
对所述配置id在设定时间间隔t中的数据进行编码器的特征压缩;
对压缩后的特征数据进行解码器的特征重构,并所述配置id在设定时间间隔t中的标签,调整所述编码器与所述解码器的参数;
基于训练好的编码器,对所述配置id在预测时间中的数据进行特征压缩;
基于训练好的解码器,对预测时间中的压缩数据进行特征重构,以得到重构值;
将所述重构值作为所述配置id在预测时间的LSTM-AE模型异常分数。
7.如权利要求1所述的方法,其特征在于,所述基于各配置id在预测时间的异常分数,计算所述运维系统在预测时间的健康度,包括:
基于专家知识,将所述配置id分类为对于系统影响较大的配置id和对于系统影响较小的配置id;
分别设置对于系统影响较大的配置id和对于系统影响较小的配置id的权重;
基于各配置id在预测时间的异常分数、异常的日志统计量时间、日志统计量的总时间、异常的配置量时间、配置量总时间以及所述权重,得到所述运维系统在预测时间的健康度f(t),其中t表示预测时间。
8.如权利要求7所述的方法,其特征在于,所述健康度
Figure FDA0003779858190000021
其中
Figure FDA0003779858190000022
Figure FDA0003779858190000023
其中,J1i表示第i个配置不可用对系统影响小,
Figure FDA0003779858190000024
表示配置不可用对系统影响大时的权重,J2i表示第i个配置不可用对系统影响大,TimeEL表示异常的日志统计量时间,TimeAL表示日志统计量的总时间,WL表示日志异常对系统健康度影响的权重,TimeEP表示异常的配置量时间,TimeAP表示配置量的总时间,WP表示配置异常对系统健康度影响的权重。
9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。
10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。
CN202210926827.XA 2022-08-03 2022-08-03 基于智能运维场景的健康度评价方法及装置 Active CN115460061B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210926827.XA CN115460061B (zh) 2022-08-03 2022-08-03 基于智能运维场景的健康度评价方法及装置
PCT/CN2023/107490 WO2024027487A1 (zh) 2022-08-03 2023-07-14 基于智能运维场景的健康度评价方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210926827.XA CN115460061B (zh) 2022-08-03 2022-08-03 基于智能运维场景的健康度评价方法及装置

Publications (2)

Publication Number Publication Date
CN115460061A true CN115460061A (zh) 2022-12-09
CN115460061B CN115460061B (zh) 2024-04-30

Family

ID=84296763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210926827.XA Active CN115460061B (zh) 2022-08-03 2022-08-03 基于智能运维场景的健康度评价方法及装置

Country Status (2)

Country Link
CN (1) CN115460061B (zh)
WO (1) WO2024027487A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024027487A1 (zh) * 2022-08-03 2024-02-08 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、系统设备及存储介质
CN113360358A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种自适应计算it智能运维健康指数的方法及系统
EP3910571A1 (en) * 2020-05-13 2021-11-17 MasterCard International Incorporated Methods and systems for server failure prediction using server logs
CN114580291A (zh) * 2022-03-10 2022-06-03 未必然数据科技(北京)有限公司 一种基于lstm-vae的动设备健康状况评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
EP3979080A1 (en) * 2020-09-30 2022-04-06 Mastercard International Incorporated Methods and systems for predicting time of server failure using server logs and time-series data
CN113220450B (zh) * 2021-04-29 2022-10-21 南京邮电大学 面向云端多数据中心的负载预测方法、资源调度方法及装置
CN115460061B (zh) * 2022-08-03 2024-04-30 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274087A (zh) * 2020-01-15 2020-06-12 国网湖南省电力有限公司 一种it集中监控的业务系统的健康度评估方法
EP3910571A1 (en) * 2020-05-13 2021-11-17 MasterCard International Incorporated Methods and systems for server failure prediction using server logs
CN112801316A (zh) * 2021-01-28 2021-05-14 中国人寿保险股份有限公司上海数据中心 基于多指标数据的故障定位方法、系统设备及存储介质
CN113360358A (zh) * 2021-06-25 2021-09-07 杭州优云软件有限公司 一种自适应计算it智能运维健康指数的方法及系统
CN114580291A (zh) * 2022-03-10 2022-06-03 未必然数据科技(北京)有限公司 一种基于lstm-vae的动设备健康状况评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪震;李千目;郭雅娟;: "面向电力大数据日志分析平台的异常监测集成预测算法", 南京理工大学学报, no. 05, 24 November 2017 (2017-11-24) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024027487A1 (zh) * 2022-08-03 2024-02-08 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置

Also Published As

Publication number Publication date
CN115460061B (zh) 2024-04-30
WO2024027487A1 (zh) 2024-02-08

Similar Documents

Publication Publication Date Title
CN108038049B (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN111639497B (zh) 一种基于大数据机器学习的异常行为发现方法
CN113887616A (zh) 一种epg连接数的实时异常检测系统及方法
CN114385391A (zh) 一种nfv虚拟化设备运行数据分析方法及装置
CN112015153A (zh) 一种无菌灌装生产线异常检测系统和方法
CN115409131B (zh) 基于spc过程管控系统的生产线异常检测方法
CN115269314A (zh) 一种基于日志的事务异常检测方法
CN112685459A (zh) 一种基于K-means集群算法的攻击源特征识别方法
CN115524002B (zh) 一种电厂旋转设备的运行状态预警方法、系统及存储介质
WO2024027487A1 (zh) 基于智能运维场景的健康度评价方法及装置
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN117113135A (zh) 一种可对异常数据整理分类的碳排放异常监测分析系统
CN115309871B (zh) 一种基于人工智能算法的工业大数据处理方法及系统
CN116108371A (zh) 基于级联异常生成网络的云服务异常诊断方法与系统
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
CN115659189A (zh) 基于生成对抗网络的大规模软件系统的异常检测方法
CN113296994A (zh) 一种基于国产计算平台的故障诊断系统及方法
CN116956089A (zh) 电器设备温度异常检测模型训练方法以及检测方法
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
CN114580472A (zh) 工业互联网中因果与注意力并重的大型设备故障预测方法
CN109978038B (zh) 一种集群异常判定方法及装置
CN112418449A (zh) 一种供电线路故障定位模型的生成方法、定位方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant