CN113485878A - 一种多数据中心故障检测方法 - Google Patents
一种多数据中心故障检测方法 Download PDFInfo
- Publication number
- CN113485878A CN113485878A CN202110762317.9A CN202110762317A CN113485878A CN 113485878 A CN113485878 A CN 113485878A CN 202110762317 A CN202110762317 A CN 202110762317A CN 113485878 A CN113485878 A CN 113485878A
- Authority
- CN
- China
- Prior art keywords
- log
- data
- center
- fault detection
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种用于多站融合的多数据中心故障检测方法,首先采集日志数据并将日志数据解析为结构化日志,建立每个应用程序的执行路径拓扑结构,然后分别对日志键和日志参数进行故障检测,能够完成每一个应用的日志故障检测;日志参数故障检测利用聚类算法,在选择聚类中心时先根据数据紧密度剔除日志参数数据集中的稀疏点,再分层从每个属性日志参数中选择数据点作为聚类中心,进而在每个聚类中检测日志参数是否异常,避免日志参数数据类型对聚类结果的影响,使聚类结果趋近于全局最优;最后构建适用于多站融合的多数据中心检测架构。本发明的故障检测方法能够检测每个应用程序的日志键和日志参数,进而全面准确地进行故障检测。
Description
技术领域
本发明涉及一种故障检测方法,尤其是一种多数据中心的故障检测方法。
背景技术
多站融合数据中心是指边缘数据中心,用于对电网内部业务、城市治理、互联网、工业制造等领域产生的数据进行边缘侧存储、处理和计算,是数据信息的汇聚基地,同时又是主要的负荷中心。大规模的数据不断叠加导致数据中心出现异常的概率越来越大,目前已有的云数据中心异常检测方案,主要基于监控指标数据,如端口流量、设备CPU使用率、进程内存使用率、丢包率、错误率等量化数据。然而,这种基于监控指标数据的异常检测方法并不能对故障进行定位。主机系统运行过程中会产生各种各样的日志,日志记录了计算机运行时的状态和系统执行的各种操作,因此对系统日志的审计可以作为主机异常检测的重要手段。在实际应用中,由于日志的差异和日志审计手段的单一落后,一些异常检测系统往往只适用于特定类型的主机,且能检测到的异常行为不够全面和准确。
发明内容
发明目的:本发明的目的是提供一种多数据中心服务器的日志数据进行分离和故障检测的方法,尤其是针对日志键和日志参数进行检测,进而全面准确地进行故障判断。
技术方案:本发明所述的多数据中心故障检测方法包括如下步骤:
(1)收集和解析日志数据,用自然语言处理方法提取日志信息,将日志数据解析为结构化日志;
(2)分离每个应用程序的日志,建立每个应用程序的执行路径拓扑结构;
(3)建立日志键的故障预测模型,对日志键进行故障检测;
(4)建立日志参数数据集X,利用聚类算法对日志参数进行故障检测,X={x1,x2,xi,…,xM},其中xi是第i个属性日志参数的数据点集合,即第i个属性数据集,M是日志参数属性的总数;其中聚类算法在选择聚类中心时先根据数据紧密度剔除日志参数数据集X中的稀疏点,再从每个属性数据集中选择数据点作为聚类中心
(5)输出故障警示信息,将故障信息写入故障信息数据库。
进一步地,步骤(4)具体包括:
(41)根据执行路径拓扑结构建立同一日志记录的日志参数的集合,对所述集合进行数据处理形成日志参数数据集X;
(42)计算日志参数数据集X中每个数据点的的紧密度和紧密率,设置紧密率阈值τ,剔除紧密率大于所述紧密率阈值τ的数据点;
(43)根据每个数据点的紧密度在每个属性数据集中选择聚类中心,聚类中心的总数为K个;
(44)根据每个数据点与每个聚类中心的欧氏距离划分聚类;
(45)根据每个数据点的紧密率检测异常数据点,将异常数据点的属性和数据点值移入异常数据集;
(46)计算聚类准则函数,若满足收敛条件则结束,输出异常数据集,否则转到步骤(44)。
紧密度的计算公式为:
其中n为日志参数数据集合xi中的数据个数,xij和xik分别为xi中的任意两个数据点,D(xij,xik)为xij和xik的欧氏距离。
紧密率的计算公式为:
选择聚类中心的方法具体为:在xi中选择密集度最小的数据点为第一个聚类中心ci1,选择择距离ci1最远的数据点作为第二个聚类中心ci2,再选择m个聚类中心满足公式(3):
xij:{xij|xij∈x′i∧max{D(xij,ci1),D(xij,ci2),…,D(xij,cim-1)} (3)
直至日志参数数据集X中所有属性的聚类中心个数K满足公式(4):
进一步地,结构化日志包括时间、应用程序ID、日志等级、日志键和日志参数。
步骤(3)具体为:根据执行路径拓扑结构确定应用程序执行时的最大分支数b,使用正确的日志数据训练日志键的故障预测模型,结合最大分支数b和故障预测模型的输出结果判断日志键是否异常。
有益效果:本发明与现有技术相比:(1)对多数据中心故障进行定位;针对日志键构建应用的工作流及其日志记录输出的执行路径拓扑结构,提出结合执行路径拓扑结构和深度学习预测算法的思路进行日志键故障检测的方法,做到数据中心故障定位。(2)故障检测性能优越,结果较为准确;用改进的聚类算法对日志参数进行故障检测,根据紧密率剔除稀疏点以及根据日志数据特点在不同属性数据集中选择聚类中心,不但进一步检测数据中心的异常发生的可能原因,同时克服了在传统聚类算法中数据差异性对聚类结果的影响,使结果趋近于全局最优。
附图说明
图1为本发明的日志键异常检测流程图;
图2为本发明的日志解析流程图;
图3为本发明的故障检测系统结构图;
图4为本发明的多数据中心故障检测架构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明的故障检测方法包括两部分内容:针对日志键构建应用的工作流及其对应的日志记录输出的执行路径拓扑结构,结合执行路径拓扑结构和深度学习预测算法进行故障检测;针对日志参数采用改进的聚类算法进行故障检测的方法。然后应用本方法建立故障检测系统,构建适合多站融合多数据中心的故障监控组织架构。
(1)基于工作流拓扑结构模型对日志键进行异常检测
将解析后的日志首先根据日志中应用程序ID进行日志分离,并建立对应的日志记录输出的执行路径拓扑结构图。日志记录输出的执行路径拓扑结构图代表应用程序在打印日志时的规律,拓扑结构图类似于有向图或树,其分支数可用来协助深度学习预测模型确定预测输出的数据、正确比例以及日志执行的规律等。如图1所示,具体包括如下步骤:
(11)数据输入
收集数据中心服务器离线历史日志数据和实时日志数据,常见数据来源是数据中心的各应用产生的日志文件,如服务器日志、主机日志、中间件日志、网络设备日志和数据库日志等。本实施例的主要日志数据来源是服务器日志、主机日志和中间件日志。
(12)日志解析
如图2所示,采用自然语言处理的方法,提取日志信息,将非结构化日志数据转换为“时间+应用程序ID+日志等级+日志键+日志参数”的结构化日志数据,结构化日志数据有利于机器识别和处理,便于根据应用ID进行日志分离并对每一个应用的日志进行故障检测。
(13)建立执行路径拓扑结构图
建立应用程序的工作流以及对应的执行路径拓扑结构图,即日志分离,通过日志中的应用程序ID,将每个应用的日志分离开,建立对应的执行路径拓扑结构图。
由于一个日志文件一般由多个应用程序写入,因此各条日志记录之间没有逻辑关系,将日志分离后就可以为每个应用进行故障检测,执行路径拓扑结构可以确定应用程序的执行路径,还可以确定应用程序执行时的最大分支数b,即应用程序将打印的下一条日志的可能性。应用程序的执行路径拓扑结构可以帮助深度学习预测算法判断是否发生异常。
(14)建立故障预测模型
使用正确日志数据和深度学习预测算法建立预测模型,该模型用于预测输出应用程序要打印的下一条日志在每一种日志上的可能性(用百分比表示)。
(15)异常判断
结合预测模型和该应用的执行路径拓扑结构判断是否发生异常。即根据该应用的执行路径拓扑结构中最大分支数b,故障预测模型的输出结果为多个下一条可能打印的日志的可能性,按照可能性从大到小排序,可认为可能性最大的前b个均属于下一条可能输出的日志条目之一,若属于其中之一,则可认为是正常的日志记录。若实际的输出结构不属于前b个可能性最大的日志条目则认为发生异常,继续执行步骤(16)。
(16)故障处理
将异常信息写入故障信息数据库,输出故障警示信息。
(17)模型更新
若发生的异常为假异常,用户可做假异常反馈,从而更新故障预测模型和执行路径拓扑结构,执行步骤(13)。
(2)基于改进的聚类算法对日志参数进行异常检测
传统的聚类算法在初始化选择聚类中心时随机选择聚类中心,这种随机选择具有不确定性,甚至可能会选择异常点或稀疏点作为聚类中心。不同的初始聚类中心有不同的搜索路径,因此聚类的结果也依赖于初始迭代点,聚类结果容易形成局部最优。此外不同类型的日志参数数据点分布或者数量有差距,如离散型或连续型,会对聚类的结果产生影响。因此本发明在选择初始聚类中心时先根据紧密率剔除稀疏点,再根据日志数据特点,分层次在不同的属性数据集中选择若干聚类中心,再在选择好的K个聚类中,计算每个数据点在本簇类中的异常度,当该数据点的异常度超过阈值δ时,被认为是异常数据,添加该数据点的属性和数据点值至异常数据集,同时将该数据从该簇类中删除。具体包括如下步骤:
(21)同步骤(11)~步骤(13)。
(22)构建日志参数数据集X
根据建立的执行路径拓扑结构可以建立同一日志记录的日志参数的数据集。将不同的日志记录的数据集并列在一起,每一个列都代表某一类日志记录的一种属性。对解析后的该数据集进行数据处理,包括将非数值类数据转换为数值数据,对离散无数的数据处理(one-hot编码),同时进行数据标准化等,形成日志参数数据集X。
(23)剔除日志参数数据集X中的稀疏点
对于数据集X={x1,x2,x3,…,xi,…,xM}(其中xi是第i个属性的数据集合),M是日志参数属性的总个数,根据公式(1)计算每一个属性中每个数据点的紧密度,根据公式(2)计算每个数据点在本属性的数据集中的紧密率rateDens(xij),删除各个属性中所有紧密率大于紧密率阈值τ的稀疏数据点,得到数据集合X′,X′={x′1,x′2,x′3,…,x′M}。
(24)计算聚类中心
根据各个属性中每个数据点的密集度dens(xij),选择密集度最小的数据点作为该属性的第一个聚类中心ci1;选择距离ci1最远的数据点作为第二个聚类中心ci2;第m个聚类中心cim是满足公式(3)条件的数据点,直至所有属性的聚类中心数量满足公式(4)条件。
(25)聚类划分
对数据集X根据各个属性数据集合中每个数据点与每个聚类中心的欧式距离D(xij,cik)划分聚类。数据点xij∈cik的聚类条件是:
D(xij,cik)=min(D(xij,ci1),D(xij,ci2),…,D(xij,cik))
即将数据点xij划分到cik所代表的簇类,其中cik表示的第i个属性的第k个聚类中心。在形成的K个聚类中,重新计算数据点xij在本簇中的紧密率rateDens(xij)。
(26)构建异常数据集Anmo
设置异常因子AF,AF的初始值为0,若本簇中该数据点的紧密率大于紧密率阈值τ则将异常因子AF加1,设置异常因子阈值δ,若AF≥δ,则将该数据点的属性和数据点值加入异常数据集Anmo中并将其从数据集X中删除。
(27)计算聚类准则函数:
若不满足收敛条件|J-J′|≤ε,其中J′是上次迭代聚类准则判断函数,则重新计算各簇类中心,新聚类中心:
转到步骤(25);否则算法结束,输出异常数据集Anmo。
将上述步骤(1)和(2)的故障检测方法建立成故障检测系统,如图3所示。
(3)多站融合多数据中心故障监控架构
如图4所示,数据中心中的每一台服务器中都包含故障检测系统,每台服务器中的故障检测系统将检测到的故障信息写入到各自的故障信息数据库,同时每隔固定的时间将从数据中心将某一时间间隔内故障信息汇报主数据中心。主数据中心设计有过滤器,过滤器会按照故障信息的重要等级进行过滤,将更高级的故障信息汇报给主数据中心的故障监控系统,同时将此来自各从数据中心过滤后的故障信息写入故障信息数据库中。主数据中心监控系统报告各从数据中心故障情况。
这里从数据中心是主动向主数据中心汇报故障信息的,并设计了过滤器,该目的是为了预防当各个从数据中心同时向主数据中心汇报故障情况时,主数据中心由于高并发量而奔溃的情况。
Claims (7)
1.一种多数据中心故障检测方法,其特征在于,包括如下步骤:
(1)收集和解析日志数据,用自然语言处理方法提取日志信息,将日志数据解析为结构化日志;
(2)分离每个应用程序的日志,建立每个应用程序的执行路径拓扑结构;
(3)建立日志键的故障预测模型,对日志键进行故障检测;
(4)建立日志参数数据集X,利用聚类算法对日志参数进行故障检测,X={x1,x2,xi,…,xM},其中xi是第i个属性日志参数的数据点集合,即第i个属性数据集,M是日志参数属性的总数;其中聚类算法在选择聚类中心时先根据数据紧密度剔除所述日志参数数据集X中的稀疏点,再从每个属性数据集中选择数据点作为聚类中心;
(5)输出故障警示信息,将故障信息写入故障信息数据库。
2.根据权利要求1所述的多数据中心故障检测方法,其特征在于,所述步骤(4)包括:
(41)根据所述执行路径拓扑结构建立同一日志记录的日志参数的集合,对所述集合进行数据处理形成日志参数数据集X;
(42)计算所述日志参数数据集X中每个数据点的紧密度和紧密率,设置紧密率阈值τ,剔除紧密率大于所述紧密率阈值τ的数据点;
(43)根据每个数据点的紧密度在每个属性数据集中选择聚类中心,聚类中心的总数为K个;
(44)根据每个数据点与每个聚类中心的欧氏距离划分聚类;
(45)根据每个数据点的紧密率检测异常数据点,将异常数据点移入异常数据集;
(46)计算聚类准则函数,若满足收敛条件则结束,输出异常数据集,否则转到步骤(44)。
6.根据权利要求1所述的多数据中心故障检测方法,其特征在于,所述步骤(1)的结构化日志包括时间、应用程序ID、日志等级、日志键和日志参数。
7.根据权利要求1所述的多数据中心故障检测方法,其特征在于,所述步骤(3)为:根据所述执行路径拓扑结构确定应用程序执行时的最大分支数b,使用正确的日志数据训练日志键的故障预测模型,结合所述最大分支数b和所述故障预测模型的输出结果判断日志键是否异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110762317.9A CN113485878B (zh) | 2021-07-06 | 2021-07-06 | 一种多数据中心故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110762317.9A CN113485878B (zh) | 2021-07-06 | 2021-07-06 | 一种多数据中心故障检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113485878A true CN113485878A (zh) | 2021-10-08 |
CN113485878B CN113485878B (zh) | 2022-11-11 |
Family
ID=77940441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110762317.9A Active CN113485878B (zh) | 2021-07-06 | 2021-07-06 | 一种多数据中心故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113485878B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116192612A (zh) * | 2023-04-23 | 2023-05-30 | 成都新西旺自动化科技有限公司 | 一种基于日志分析的系统故障监测和预警系统及方法 |
CN117014288A (zh) * | 2022-11-29 | 2023-11-07 | 慧之安信息技术股份有限公司 | 一种基于物联网平台的设备故障检测分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107172058A (zh) * | 2017-06-01 | 2017-09-15 | 国家电网公司 | 一种基于流数据分析的Web 攻击实时在线检测系统 |
CN108376148A (zh) * | 2018-01-24 | 2018-08-07 | 西安交通大学 | 一种基于数据隐结构分析的基站聚类检测方法 |
US20180357299A1 (en) * | 2017-06-07 | 2018-12-13 | Accenture Global Solutions Limited | Identification and management system for log entries |
CN110222747A (zh) * | 2019-05-24 | 2019-09-10 | 河海大学 | 一种优化的聚类方法 |
CN110958136A (zh) * | 2019-11-11 | 2020-04-03 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的日志分析预警方法 |
CN112306981A (zh) * | 2020-11-03 | 2021-02-02 | 广州科泽云天智能科技有限公司 | 一种面向高性能计算系统故障日志的故障预测方法 |
CN112488080A (zh) * | 2020-12-23 | 2021-03-12 | 武汉烽火众智数字技术有限责任公司 | 一种基于聚类算法的故障诊断分析方法及系统 |
-
2021
- 2021-07-06 CN CN202110762317.9A patent/CN113485878B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107172058A (zh) * | 2017-06-01 | 2017-09-15 | 国家电网公司 | 一种基于流数据分析的Web 攻击实时在线检测系统 |
US20180357299A1 (en) * | 2017-06-07 | 2018-12-13 | Accenture Global Solutions Limited | Identification and management system for log entries |
CN108376148A (zh) * | 2018-01-24 | 2018-08-07 | 西安交通大学 | 一种基于数据隐结构分析的基站聚类检测方法 |
CN110222747A (zh) * | 2019-05-24 | 2019-09-10 | 河海大学 | 一种优化的聚类方法 |
CN110958136A (zh) * | 2019-11-11 | 2020-04-03 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的日志分析预警方法 |
CN112306981A (zh) * | 2020-11-03 | 2021-02-02 | 广州科泽云天智能科技有限公司 | 一种面向高性能计算系统故障日志的故障预测方法 |
CN112488080A (zh) * | 2020-12-23 | 2021-03-12 | 武汉烽火众智数字技术有限责任公司 | 一种基于聚类算法的故障诊断分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
彭玲等: "基于核心图聚类的邮件网络社区发现", 《技术与方法》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117014288A (zh) * | 2022-11-29 | 2023-11-07 | 慧之安信息技术股份有限公司 | 一种基于物联网平台的设备故障检测分析方法 |
CN116192612A (zh) * | 2023-04-23 | 2023-05-30 | 成都新西旺自动化科技有限公司 | 一种基于日志分析的系统故障监测和预警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113485878B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019238109A1 (zh) | 一种故障根因分析的方法及装置 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
Guan et al. | Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems. | |
WO2022083576A1 (zh) | 一种网络功能虚拟化设备运行数据的分析方法及装置 | |
CN113485878B (zh) | 一种多数据中心故障检测方法 | |
CN114816909B (zh) | 一种基于机器学习的实时日志检测预警方法及系统 | |
CN114465874B (zh) | 故障预测方法、装置、电子设备与存储介质 | |
WO2023071761A1 (zh) | 一种异常定位方法及装置 | |
CN112415331B (zh) | 基于多源故障信息的电网二次系统故障诊断方法 | |
CN111949480B (zh) | 一种基于组件感知的日志异常检测方法 | |
CN112769605A (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN113626400A (zh) | 基于日志树和解析树的日志事件提取方法及系统 | |
CN115237717A (zh) | 一种微服务异常检测方法和系统 | |
CN111541559A (zh) | 一种基于因果规则的故障定位方法 | |
CN111310139A (zh) | 行为数据识别方法、装置及存储介质 | |
CN111726349A (zh) | 基于ga优化的gru并行网络流量异常检测方法 | |
CN114647558A (zh) | 一种日志异常检测的方法和装置 | |
CN113765698B (zh) | 一种面向工业互联网的网络故障定位和根因检测方法及系统 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
CN117254980B (zh) | 一种基于注意力机制的工业网络安全风险评估方法及系统 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN118245264A (zh) | 服务器故障处理方法、装置、电子设备及介质 | |
CN116365519B (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN113505818A (zh) | 改进决策树算法的熔铝炉能耗异常诊断方法和系统及设备 | |
CN111209955A (zh) | 基于深度神经网络和随机森林的飞机电源系统故障识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |