CN116541252B - 一种机房故障日志数据处理方法及装置 - Google Patents
一种机房故障日志数据处理方法及装置 Download PDFInfo
- Publication number
- CN116541252B CN116541252B CN202310819339.3A CN202310819339A CN116541252B CN 116541252 B CN116541252 B CN 116541252B CN 202310819339 A CN202310819339 A CN 202310819339A CN 116541252 B CN116541252 B CN 116541252B
- Authority
- CN
- China
- Prior art keywords
- log data
- fault log
- block
- data blocks
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000009826 distribution Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 230000004069 differentiation Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开一种机房故障日志数据处理的方法及装置,对每个机房故障日志数据块中数据分类,得到每个故障日志数据块的时间数据集和文本数据集,根据不同故障日志数据块间时间数据集的差异和文本数据集的差异得到不同故障日志数据块的块间距离,由不同故障日志数据块的块间距离确定截断距离,由截断距离得到每个故障日志数据块对应类簇的分布密度,根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离,对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合得到聚类质心拟合曲线,确定故障数据块聚类的中心点,对机房故障日志数据块聚类,可提高故障日志数据聚类的准确性。
Description
技术领域
本申请涉及机房故障处理技术领域,尤其涉及一种机房故障日志数据处理方法及装置。
背景技术
机房是专门用于存放计算机设备、服务器和相关设备的空间。它通常具备良好的环境控制和安全措施,以确保设备的正常运行和数据的安全性。由于电力问题、网络问题、温度和湿度问题或者设备故障等原因会引发机房故障,通常,对于机房故障可通过日志的形式记录机房中发生的故障事件和相应处理情况的记录,机房故障日志数据对于机房管理人员来说是一种比较重要的数据,可用于追踪和分析故障,并帮助改进机房的运行和维护。
目前,对于机房故障日志数据的处理一般采用K均值聚类算法对机房故障日志数据进行聚类,然后进行分析,但该现有机房故障日志数据的处理方法中一方面受到初始聚类中心的选择影响而造成局部聚类最优,影响最终的聚类结果准确性,另一方面因为机房故障日志数据块属于混合数据,采用该方法得到的聚类结果误差值比较大,也会影响最终聚类结果的准确性。
发明内容
本申请实施例通过提供一种机房故障日志数据处理的方法及装置,以解决现有机房故障日志数据聚类中心点为局部最优以及聚类结果误差值比较大,影响最终聚类结果准确性的技术问题。
为解决上述技术问题,本申请采用如下技术方案:
第一方面,本申请提供一种机房故障日志数据处理的方法,包括如下步骤:
对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集;
判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离;
将所述不同故障日志数据块的块间距离进行排序后确定截断距离;对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度;根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离;
对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,根据聚类质心拟合曲线,确定故障数据块聚类的中心点,按照所述故障数据块聚类的中心点对机房故障日志数据进行聚类。
在一些实施例中,对每个机房故障日志数据块中数据根据机房故障日志数据的属性类型进行分类。
在一些实施例中,不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异采用不同的判定方式。
在一些实施例中,不同故障日志数据块间时间数据集的差异采用下述公式确定:
其中,和/>表示两个不同的故障数据块对应的m维时间数据集,/>表示所述时间数据集/>和/>间的差异度,/>表示/>时间数据集中第1个到第m个的时间数据,/>表示/>时间数据集中第1个到第m个的时间数据。
不同故障日志数据块间文本数据集的差异采用下述公式确定:
其中,和/>表示两个不同的故障数据块对应的n维文本数据集,/>表示所述文本数据集/>和/>间的差异度,/>表示判定系数,/>表示/>文本数据集中第1个到第n个的文本数据,/>表示/>文本数据集中第1个到第n个的文本数据。
在一些实施例中,对不同故障日志数据块间的数据差异度和文本差异度加权后相加,得到不同故障日志数据块的块间距离。
在一些实施例中,根据所述截断距离,确定每个故障日志数据块对应类簇的范围。
在一些实施例中,所述每个机房故障日志数据块对应类簇的分布密度由下述公式确定:
其中,和/>表示两个不同的故障日志数据块,/>表示/>故障日志数据块对应类簇的分布密度,/>表示/>和/>的块间距离,/>表示所述截断距离,/>表示判定/>是否在对应类簇范围内的系数。
第二方面,在本申请提供一种机房故障日志数据处理装置,包括:
故障日志数据块分类模块,用于对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集;
故障日志数据块间距离判定模块,用于判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离;
故障日志数据块高密度判定模块,用于将所述不同故障日志数据块的块间距离进行排序后确定截断距离;对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度;根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离;
故障日志数据块聚类模块,用于对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,根据聚类质心拟合曲线,确定故障数据块聚类的中心点,按照所述故障数据块聚类的中心点对机房故障日志数据进行聚类。
第三方面,本申请提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的机房故障日志处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的机房故障日志处理方法。
本申请公开的实施例提供的技术方案具有以下有益效果:
本申请公开的机房故障日志数据处理的方法及装置中,首先对每个机房故障日志数据块中数据进行分类,降低数据复杂度,得到每个故障日志数据块的时间数据集和文本数据集,然后对不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异采用不同的方式进行判别,以提高不同故障日志数据块间所述数据差异度和所述文本差异度的准确度,进而根据不同故障日志数据块间的数据差异度和文本差异度,可得到不同故障日志数据块的块间距离,并进一步确定截断距离,对所述截断距离进行密度检验估计,从而获取每个故障日志数据块对应类簇的分布密度,根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离,最后对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,进而确定故障数据块聚类中心点,根据所述故障数据块聚类中心点得到故障日志数据块类簇,最终可提高故障日志数据聚类的准确性。
附图说明
图1是根据本申请一些实施例所示的机房故障日志数据处理的方法的示例性流程图;
图2是根据本申请一些实施例所示的机房故障日志数据处理的装置的示例性硬件和/或软件的示意图;
图3是根据本申请一些实施例所示的应用机房故障日志数据处理方法的计算机设备的示例性结构示意图。
具体实施方式
本申请实施提供一种机房故障日志数据处理的方法及装置,其核心是对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集,然后对不同故障日志数据间所述时间数据集的差异和所述文本数据集的差异采用不同的方式判别,得到不同故障日志数据块间的数据差异度和文本差异度,根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离,进而确定截断距离,根据所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度,根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离,对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,根据所述聚类质心拟合曲线确定故障数据块聚类中心点,根据所述故障数据块聚类中心点对故障日志数据块进行聚类。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。参考图1,该图是根据本申请一些实施例所示的机房故障日志数据处理方法的示例性流程图,该机房故障日志数据处理方法100主要包括如下步骤:
在步骤101,对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集。
具体实现时,机房故障日志数据块为不同时间段内的机房故障日志数据组成的集合,属于混合数据,由于需要对混合数据中不同类型数据之间计算差异度,因此需对机房故障日志数据块中数据进行分类,在一些实施例中,按照数据的属性可以将机房故障日志数据块中数据分为时间数据和文本数据,根据上述分类得到每个故障日志数据块的时间数据集和文本数据集合。
设故障日志数据块,故障日志数据块/>中的数据有/>,故障日志数据块/>的时间数据集和文本数据集由下述过程得到:
取出数据,对数据/>进行判定,如果属于文本属性数据放入文本数据集,否则,放入时间数据集。对故障日志数据块/>中所有数据重复该步骤,得到故障日志数据块/>的时间数据集和文本数据集。
在步骤102,判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离。
具体实现时,由于所述时间数据集和所述文本数据集的类型不同,采用相同的方式判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异会导致其中一种的差异误差值大,因此需要采用不同的方法判定不同故障日志数据块之间所述时间数据集的差异和所述文本数据集的差异。
在一些实施例中,设定故障日志数据块的所述时间数据集/>,故障日志数据块/>的所述时间数据集/>,则所述故障日志数据块/>和所述故障日志数据块/>的所述时间数据集间的差异度可根据下述公式确定:
其中,和/>表示两个不同的故障数据块对应的m维时间数据集,/>表示所述时间数据集/>和/>间的差异度,/>表示/>时间数据集中第1个到第m个的时间数据,/>表示/>时间数据集中第1个到第m个的时间数据。
在一些实施例中,设定故障日志数据块的所述文本数据集/>,故障日志数据块/>的所述文本数据集/>,则所述故障日志数据块/>和所述故障日志数据块/>的所述文本数据集间的差异度可根据下述公式确定:
其中,和/>表示两个不同的故障数据块对应的n维文本数据集,/>表示所述文本数据集/>和/>间的差异度,/>表示/>文本数据集中第1个到第n个的文本数据,/>表示/>文本数据集中第1个到第n个的文本数据,/>表示判定系数,当/>与相同时/>取值为0,当/>与/>不同时/>取值为1。
需要说明的,本申请中对不同故障日志数据块间的数据差异度和文本差异度加权后相加,可得到不同故障日志数据块的块间距离。
将所有故障日志数据块的时间数据集合并,得到时间数据全集,将所有故障日志数据块的文本数据集合并,得到文本数据全集,时间数据集和文本数据集合并,得到时间文本并集,计算时间文本并集中文本数据元素个数占时间文本并集元素个数的比例,得到加权值,加权值/>可以根据需求采用其他方法确定。
在一些实施例中,设故障日志数据块和故障日志数据块/>,则/>和/>的块间距离/>由下述公式确定:
其中,表示和之间的距离,表示加权值,/>表示/>和/>的数据集之间的差异度,/>表示/>和/>的文本集之间的差异度。
在步骤103,将所述不同故障日志数据块的块间距离进行排序后确定截断距离,对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度,根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离。
在一些实施例中,将所述不同故障日志数据块的块间距离按照从小到大排序后得到顺序块间距离集,根据邻占比确定截断距离,所述邻占比为相邻故障日志数据块数量与全部故障日志数据块数量的比值,在本申请中,邻占比的取值范围为[1%,2%],取顺序块间距离集中第1%到2%元素的均值为截断距离,邻占比的取值范围可以根据需求设定范围。
在一些实施例中,对截断距离采用密度检验估计,即所述故障日志数据块对应类簇的分布密度由下述公式确定:
其中,和/>表示两个不同的故障日志数据块,/>表示故障日志数据块/>对应类簇的分布密度,/>表示/>和/>的块间距离,/>表示所述截断距离,/>表示判定/>是否在/>对应类簇范围内的系数,当/>小于0时/>在/>对应类簇范围内,当/>不小于0时/>不在对应类簇范围内。
具体实现时,由于故障日志数据块聚类中心点处于高密度区域内,所以其对应类簇的分布密度应该大于其周围故障日志数据块对应类簇的分布密度,且不同故障日志数据块聚类中心点的距离足够远。
在一些实施例中,设故障日志数据块对应类簇的分布密度为/>,找到故障日志数据块/>,与其他故障日志数据相比,所述/>与/>的块间距离最小且其对应类簇的分布密度/>大于/>,/>和/>的块间距离就是故障日志数据块/>的高密度距离。
对所有故障日志块寻找高密度距离过程中,设故障日志数据块对应类簇的分布密度为/>,找不到故障日志数据块/>,与其他故障日志数据相比,所述/>与/>的块间距离最小且其对应类簇的分布密度/>大于/>,则所述故障日志数据块/>的高密度为0。
在步骤104,对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,根据聚类质心拟合曲线,确定故障数据块的聚类中心点,按照所述故障数据块的聚类中心点对机房故障日志数据进行聚类。
在一些实施例中,设和/>为两个不同故障日志数据块,故障日志数据块/>和故障日志数据块/>对应类簇的分布密度分别为/>、/>,故障日志数据块/>与故障日志数据块的块间距离最小且/>大于/>,故障日志数据块/>的高密度距离为/>,采用下述公式对故障日志数据块/>的高密度距离和对应类簇的分布密度进行拟合:
对所有故障日志数据块进行以上操作,得到故障日志数据聚类中心点拟合曲线。
在一些实施例中,使用残差分析找到与该聚类质心拟合曲线距离最大的故障日志数据块,进而将所述远离聚类质心拟合曲线的故障日志数据块作为所述故障日志数据块的聚类中心点,最后对机房故障日志数据进行聚类。
在一些实施例中,可通过计算除聚类中心点外的故障日志数据块与聚类中心点的距离,根据除聚类中心点外的故障日志数据块与聚类中心点的距离采用聚类算法(如K均值聚类、层次聚类等)将数据块划分成不同的簇,从而将故障日志数据块归纳入不同类簇中,实现对所述机房故障日志数据的聚类。
另外,在一些实施例中,参考图2,该图是根据本申请一些实施例所示的机房故障日志数据处理装置的示例性硬件和/或软件的示意图,本实施例中机房故障日志数据处理装置200可包括:故障日志数据块分类模块201、故障日志数据块间距离判定模块202、故障日志数据块高密度判定模块203及故障日志数据块聚类中心点模块204,分别说明如下:
故障日志数据块分类模块201,本申请中故障日志数据块分类模块201主要用于对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集;
故障日志数据块间距离判定模块202,本申请中故障日志数据块间距离判定模块202主要用于判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离;
故障日志数据块高密度判定模块203,本申请中故障日志数据块高密度判定模块203主要用于将所述不同故障日志数据块的块间距离进行排序后确定截断距离;对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度;根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离;
故障日志数据块聚类中心点模块204,本申请中故障日志数据块聚类中心点模块204主要用于对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线;根据聚类质心拟合曲线,确定故障数据块聚类的中心点;根据所述故障数据条类簇的中心点,对机房故障日志数据进行聚类。
在一些实施例中,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的机房故障日志数据处理方法。
在一些实施例中,参考图3,该图是根据本申请施例提供的一种机房故障日志数据处理的方法的计算机设备的结构示意图。上述实施例中的机房故障日志数据处理方法可以通过图3所示的计算机设备来实现,该计算机设备300包括至少一个处理器301、通信总线302、存储器303以及至少一个通信接口304。
处理器301可以是一个通用中央处理器(central processing unit,CPU)、特定应用集成电路(application-specific integrated circuit,ASIC)或一个或多个用于控制本申请中的机房故障日志数据处理方法的执行。
通信总线302可包括一通路,在上述组件之间传送信息。
存储器303可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器303可以是独立存在,通过通信总线302与处理器301相连接。存储器303也可以和处理器301集成在一起。
其中,存储器303用于存储执行本申请方案的程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的程序代码。程序代码中可以包括一个或多个软件模块。上述实施例中机房故障日志数据处理方法可以通过处理器301以及存储器303中的程序代码中的一个或多个软件模块实现。
通信接口304,使用任何收发器一类的装置,用于与其它设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
在具体实现中,作为一种实施例,计算机设备可以包括多个处理器,这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑 (personaldigital assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备,本申请实施例不限定计算机设备的类型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
例如,在一些实施例中,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的机房故障日志数据处理的方法。
本申请是根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发
明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种机房故障日志数据处理方法,其特征在于,包括如下步骤:
对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集;
判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离;
将所述不同故障日志数据块的块间距离进行排序后确定截断距离;对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度;根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离;
对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,其中,采用下述公式对故障日志数据块的高密度距离和对应类簇的分布密度进行拟合:
;
表示故障日志数据块/>对应类簇的分布密度,/>表示故障日志数据块/>对应类簇的分布密度,故障日志数据块/>与故障日志数据块/>的块间距离最小且/>大于/>,/>表示故障日志数据块/>的高密度距离;
根据聚类质心拟合曲线,确定故障数据块聚类的中心点,其中根据聚类质心拟合曲线,确定故障数据块聚类的中心点具体是找到与该聚类质心拟合曲线距离最大的故障日志数据块,进而将与该聚类质心拟合曲线距离最大的故障日志数据块作为所述故障日志数据块的聚类中心点;
按照所述故障数据块聚类的中心点对机房故障日志数据进行聚类。
2.如权利要求1所述的方法,其特征在于,对机房故障日志数据块中数据根据机房故障日志数据的属性类型进行分类。
3.如权利要求1所述的方法,其特征在于,不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异采用不同的判定方式。
4.如权利要求3所述的方法,其特征在于,不同故障日志数据块间所述时间数据集的差异根据下述公式确定:
其中,/>和/>表示两个不同的故障数据块对应的m维时间数据集,/>表示所述时间数据集/>和/>间的差异度,表示/>时间数据集中第1个到第m个的时间数据,/>表示/>时间数据集中第1个到第m个的时间数据;
不同故障日志数据块间所述文本数据集的差异根据下述公式确定:
其中,/>和/>表示两个不同的故障数据块对应的n维文本数据集,/>表示所述文本数据集/>和/>间的差异度,/>表示判定系数,/>表示/>文本数据集中第1个到第n个的文本数据,/>表示/>文本数据集中第1个到第n个的文本数据。
5.如权利要求1所述的方法,其特征在于,对不同故障日志数据块间的数据差异度和文本差异度加权后相加,得到不同故障日志数据块的块间距离。
6.如权利要求1所述的方法,其特征在于,根据所述截断距离,确定每个故障日志数据块对应类簇的范围。
7.如权利要求6所述的方法,其特征在于,所述故障日志数据块对应类簇的分布密度根据下述公式确定:
其中,/>和/>表示两个不同的故障日志数据块,/>表示/>故障日志数据块对应类簇的分布密度,/>表示/>和/>的块间距离,/>表示所述截断距离,/>表示判定/>是否在/>对应类簇范围内的系数。
8.一种机房故障日志数据处理装置,其采用权利要求1所述的机房故障日志数据处理方法进行控制,其特征在于,该机房故障日志数据处理装置包括:
故障日志数据块分类模块,用于对每个机房故障日志数据块中数据进行分类,得到每个故障日志数据块的时间数据集和文本数据集;
故障日志数据块间距离判定模块,用于判定不同故障日志数据块间所述时间数据集的差异和所述文本数据集的差异,得到不同故障日志数据块间的数据差异度和文本差异度;根据不同故障日志数据块间的数据差异度和文本差异度,得到不同故障日志数据块的块间距离;
故障日志数据块高密度判定模块,用于将所述不同故障日志数据块的块间距离进行排序后确定截断距离;对所述截断距离进行密度检验估计,进而获取每个故障日志数据块对应类簇的分布密度;根据不同故障日志数据块间的差异度和不同故障日志数据块对应类簇的分布密度,确定每个故障日志数据块的高密度距离;
故障日志数据块聚类模块,用于对所有故障日志数据块的高密度距离和对应类簇的分布密度进行拟合,得到聚类质心拟合曲线,根据聚类质心拟合曲线,确定故障数据块聚类的中心点,按照所述故障数据块聚类的中心点对机房故障日志数据进行聚类。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行如权利要求1至7任一项所述的机房故障日志数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的机房故障日志数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819339.3A CN116541252B (zh) | 2023-07-06 | 2023-07-06 | 一种机房故障日志数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819339.3A CN116541252B (zh) | 2023-07-06 | 2023-07-06 | 一种机房故障日志数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541252A CN116541252A (zh) | 2023-08-04 |
CN116541252B true CN116541252B (zh) | 2023-10-20 |
Family
ID=87445686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310819339.3A Active CN116541252B (zh) | 2023-07-06 | 2023-07-06 | 一种机房故障日志数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541252B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446928A (zh) * | 2016-07-15 | 2017-02-22 | 浙江工业大学 | 基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法 |
CN106649877A (zh) * | 2017-01-06 | 2017-05-10 | 广东工业大学 | 一种基于密度峰值的大数据挖掘方法及装置 |
CN108537276A (zh) * | 2018-04-09 | 2018-09-14 | 广东工业大学 | 一种聚类中心的选取方法、装置及介质 |
CN109408562A (zh) * | 2018-11-07 | 2019-03-01 | 广东工业大学 | 一种基于客户特征的分组推荐方法及其装置 |
CN110633371A (zh) * | 2019-09-23 | 2019-12-31 | 北京安信天行科技有限公司 | 一种日志分类方法及系统 |
CN111353529A (zh) * | 2020-02-23 | 2020-06-30 | 北京工业大学 | 一种自动确定聚类中心的混合属性数据集聚类方法 |
CN111582326A (zh) * | 2020-04-22 | 2020-08-25 | 长沙理工大学 | 一种密度峰值聚类算法的簇中心的选取方法以及设备 |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN113254255A (zh) * | 2021-07-15 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
CN114358024A (zh) * | 2021-12-22 | 2022-04-15 | 中国建设银行股份有限公司 | 日志分析方法、装置、设备、介质和程序产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9081888B2 (en) * | 2010-03-31 | 2015-07-14 | Cloudera, Inc. | Collecting and aggregating log data with fault tolerance |
US10242473B2 (en) * | 2017-03-22 | 2019-03-26 | Sas Institute Inc. | Computer system to generate scalable plots using clustering |
US20220351055A1 (en) * | 2021-04-28 | 2022-11-03 | GE Precision Healthcare LLC | Data diversity visualization and quantification for machine learning models |
-
2023
- 2023-07-06 CN CN202310819339.3A patent/CN116541252B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446928A (zh) * | 2016-07-15 | 2017-02-22 | 浙江工业大学 | 基于自体集密度搜寻与划分聚类的否定选择算法的数据分类方法 |
CN106649877A (zh) * | 2017-01-06 | 2017-05-10 | 广东工业大学 | 一种基于密度峰值的大数据挖掘方法及装置 |
CN108537276A (zh) * | 2018-04-09 | 2018-09-14 | 广东工业大学 | 一种聚类中心的选取方法、装置及介质 |
CN109408562A (zh) * | 2018-11-07 | 2019-03-01 | 广东工业大学 | 一种基于客户特征的分组推荐方法及其装置 |
CN110633371A (zh) * | 2019-09-23 | 2019-12-31 | 北京安信天行科技有限公司 | 一种日志分类方法及系统 |
CN111353529A (zh) * | 2020-02-23 | 2020-06-30 | 北京工业大学 | 一种自动确定聚类中心的混合属性数据集聚类方法 |
CN111582326A (zh) * | 2020-04-22 | 2020-08-25 | 长沙理工大学 | 一种密度峰值聚类算法的簇中心的选取方法以及设备 |
CN112528025A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN113254255A (zh) * | 2021-07-15 | 2021-08-13 | 苏州浪潮智能科技有限公司 | 一种云平台日志的分析方法、系统、设备及介质 |
CN114358024A (zh) * | 2021-12-22 | 2022-04-15 | 中国建设银行股份有限公司 | 日志分析方法、装置、设备、介质和程序产品 |
Non-Patent Citations (1)
Title |
---|
基于聚类和关联规则的缺失数据填充方法研究;孙志冉;《中国优秀硕士学位论文全文数据库》;第17-27页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541252A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
US10748166B2 (en) | Method and system for mining churn factor causing user churn for network application | |
CN113379176B (zh) | 电信网络异常数据检测方法、装置、设备和可读存储介质 | |
CN112363896A (zh) | 日志异常检测系统 | |
CN112306820B (zh) | 一种日志运维根因分析方法、装置、电子设备及存储介质 | |
CN116596095A (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN114781688A (zh) | 业扩项目的异常数据的识别方法、装置、设备及存储介质 | |
CN110909804B (zh) | 基站异常数据的检测方法、装置、服务器和存储介质 | |
CN114124460A (zh) | 工控系统入侵检测方法、装置、计算机设备及存储介质 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
CN111064719A (zh) | 文件异常下载行为的检测方法及装置 | |
CN113705074B (zh) | 一种化工事故风险预测方法及装置 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN113656354A (zh) | 日志分类方法、系统、计算机设备和可读存储介质 | |
CN116541252B (zh) | 一种机房故障日志数据处理方法及装置 | |
CN111984514A (zh) | 基于Prophet-bLSTM-DTW的日志异常检测方法 | |
CN112579847A (zh) | 生产数据的处理方法和装置、存储介质及电子设备 | |
CN114978878B (zh) | 定位方法、装置、电子设备及计算机可读存储介质 | |
CN115883392A (zh) | 算力网络的数据感知方法、装置、电子设备及存储介质 | |
CN114282598A (zh) | 多源异构电网数据融合方法、装置、设备及计算机介质 | |
CN109446020B (zh) | 云存储系统的动态评估方法以及装置 | |
CN112785000A (zh) | 面向大规模机器学习系统的机器学习模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |