CN116192612B - 一种基于日志分析的系统故障监测和预警系统及方法 - Google Patents

一种基于日志分析的系统故障监测和预警系统及方法 Download PDF

Info

Publication number
CN116192612B
CN116192612B CN202310438587.3A CN202310438587A CN116192612B CN 116192612 B CN116192612 B CN 116192612B CN 202310438587 A CN202310438587 A CN 202310438587A CN 116192612 B CN116192612 B CN 116192612B
Authority
CN
China
Prior art keywords
log data
log
fault
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310438587.3A
Other languages
English (en)
Other versions
CN116192612A (zh
Inventor
戴璐宇
周小双
陈蓣桦
张勇
刘中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xinxiwang Automation Technology Co ltd
Original Assignee
Chengdu Xinxiwang Automation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xinxiwang Automation Technology Co ltd filed Critical Chengdu Xinxiwang Automation Technology Co ltd
Priority to CN202310438587.3A priority Critical patent/CN116192612B/zh
Publication of CN116192612A publication Critical patent/CN116192612A/zh
Application granted granted Critical
Publication of CN116192612B publication Critical patent/CN116192612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明属于计算机信息处理技术领域,涉及一种基于日志分析的系统故障监测和预警系统及方法,包括:采集目标设备的日志数据,按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,对所述结构化日志数据进行存储,根据已训练的分类预测模型,对存储的结构化日志数据进行故障预测,得到预测结果,按照预设条件更新所述目标设备所属目标网络的拓扑图,根据所述拓扑图和所述故障预测结果,发出报警信息。本发明能够基于日志数据的预测结果和设备的关联拓扑图对潜在故障设备进行报警,可以挖掘出日志数据中没有直接体现的故障设备,提高运维效率。

Description

一种基于日志分析的系统故障监测和预警系统及方法
技术领域
本发明涉及计算机信息处理技术领域,尤其是一种基于日志分析的系统故障监测和预警系统及方法。
背景技术
设备线管控系统(Block Control System),简称BC系统。BC系统具有整合各种设备、参数智能管理、生产管理及管制等功能,可以将各自独立的上下游设备整合成一条自动化设备线,提高生产效率和产品良率。
随着设备规模的快速发展,运维管理变得更加复杂。在网络设备、管理设备、终端设备的运行期间,将生成大量的日志数据,包括网络连接状态、系统数据库运行状态、服务进程运行状态等。
设备的长期运行难免会产生故障,现有技术对故障的预警大多基于相对简单的处理算法,如统计分析和关联规则。现有在进行设备的故障预警时,一般也仅仅能够依据当前设备的运行数据和设备的状态数据对该设备本身是否存在故障进行预警,而在实际应用中发现,大概率出现故障的设备,其链路周边的设备也更容易出现故障,比如,若一个设备出现漏电,或是长期工作在超负荷状态或是工作电压超出额定工作电压,与该设备相互关联的其他设备必然也都得要受到一定影响,其出现概率的可能信也很大。然而,现有的预警方式,都对此类设备没有进行预警。
发明内容
为解决上述现有技术问题,本发明提供一种基于日志分析的系统故障监测和预警系统,其特征在于,包括:
日志采集模块;
日志处理模块;
日志存储模块;
日志分析模块;
拓扑分析模块;
日志报警模块;
其中,
所述日志采集模块,用于采集目标设备的日志数据;
所述日志处理模块,用于按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID;
所述日志存储模块,用于对所述结构化日志数据进行存储;
所述日志分析模块,用于根据已训练的分类预测模型,对存储的结构化日志数据进行故障预测,得到故障预测结果;
所述拓扑分析模块,用于按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行初始化的,所述拓扑图中包括所述至少两个设备之间的连接关系;所述日志报警模块,用于根据设备关联拓扑图和所述故障预测结果,发出报警信息。
作为本申请的一可选实施例,所述日志采集模块包括:
采集单元,用于通过TCP协议,从所述目标设备获取日志数据;
分类单元,用于根据所述目标设备的IP地址,确定所述目标设备的类型;
添加单元,用于根据所述目标设备的类型,添加类型数据至对应的所述日志数据中。
作为本申请的一可选实施例,还包括日志归档模块,日志归档模块用于将设备检修结果和报警设备的相关日志数据进行关联存储;
所述拓扑分析模块,用于将预测故障设备对应的当前日志数据与日志归档模块中的日志数据进行相似度匹配,并依据相似度匹配结果对所述拓扑图进行自动校正更新。
作为本申请的一可选实施例,所述相似度匹配具体为:
其中,为当前日志数据中第/>个字段的值, />为当前日志数据的字段平均值,为归档日志数据中第/>个字段的值, />为归档日志数据的字段平均值, />代表的日志数据的字段长度, />为相似度, />和/>为两个权重系数。
作为本申请的一可选实施例,所述日志处理模块,用于按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID;类型数据不同的日志数据对应的结构化处理方式不同。
作为本申请的一可选实施例,还包括日志存储模块,所述日志数据存储模块,包括:
分类存储模块,用于根据所述类型ID,将所述结构化日志数据存储在目标表中,不同的表中存储的结构化日志数据的类型ID不同;
命名单元,用于根据所述目标表中第一行数据的采集时间对所述目标表进行命名;
导出单元,用于判断所述目标表是否满足导出条件,当所述目标表的行数大于行数阈值时,将所述目标表中的数据导出为CSV文件。
作为本申请的一可选实施例,所述报警信息还包括所述目标设备关联的待检测设备;所述日志报警模块,还用于根据所述拓扑图和所述故障预测结果确定与所述目标设备和所述待处理的线路相关联的待检测设备。
作为本申请的一可选实施例,
所述分类预测模型通过如下步骤进行训练:
根据目标设备的日志数据,得到样本集;
采用分类预测模型对所述样本集进行预测,得到所述样本集的预测结果;
基于所述样本集的预测结果与所述样本集的标准结果之间的差异对所述分类预测模型进行训练,得到训练后的分类预测模型。
作为本申请的一可选实施例,所述行数阈值为5000行:
作为本申请的一可选实施例,所述目标设备包括:网络设备、管理设备、终端设备。
另一方面,为解决上述技术问题,本申请还公开了一种基于日志分析的系统故障监测和预警方法,包括以下步骤:
采集目标设备的日志数据;
对所述日志数据进行结构化,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID,类型数据不同的日志数据对应的结构化处理方式不同;
对所述结构化日志数据进行存储;
根据已训练的分类预测模型,对存储的结构化日志数据进行故障预测,得到故障预测结果,所述故障预测结果是基于结构化日志数据中与所述目标设备的类型对应的类型ID确定的;
按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行更新的,所述拓扑图中包括所述至少两个设备之间的连接关系;
根据所述拓扑图和所述故障预测结果,发出报警信息;所述报警信息包括所述目标设备存在的故障和待处理的线路,所述目标设备存在的故障是基于所述故障预测结果确定的,所述待处理的线路是基于所述故障预测结果和所述拓扑图确定的。
综上所述,本发明的有益效果如下:
本申请在进行报警时,能够根据基于日志数据的预测结果和设备的关联拓扑图对潜在故障设备进行报警,可以挖掘出日志数据中没有直接体现的故障设备,对没有体现出的故障设备也进行报警,方便维护人员一次性维护到位;另外一方面,本申请通过计算日志数据与归档日志数据的相似度来实现拓扑图的自动更新,确保了拓扑图的实时准确性。最后,本申请通过将数据库中的日志文件的数据量超过一预设阈值时,将数据库中日志数据导出为CSV文件,减少了对内存的消耗。
附图说明
图1为本发明所提供的基于日志分析的系统故障监测和预警系统的结构示意图;
图2为本发明所提供的设备关系拓扑图的示意图;
图3为本发明所提供的基于日志分析的系统故障监测和预警方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参照图1,为解决上述现有技术问题,本发明提供一种基于日志分析的系统故障监测和预警系统,包括:
日志采集模块;
日志处理模块;
日志存储模块;
日志分析模块;
拓扑分析模块;
日志报警模块;
其中,
所述日志采集模块,用于采集目标设备的日志数据;
所述日志处理模块,用于按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID;类型数据不同的日志数据对应的结构化处理方式不同;
所述日志存储模块,用于对所述结构化日志数据进行存储;
所述日志分析模块,用于根据已训练的基于分类预测模型,对存储的结构化日志数据进行故障预测,得到预测结果;
所述拓扑分析模块,用于按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行初始化的,所述拓扑图中包括所述至少两个设备之间的连接关系;
所述日志报警模块,用于根据所述拓扑图和所述故障预测结果,发出报警信息提醒检修人员检修;所述报警信息包括所述目标设备存在的故障和待处理的线路,所述目标设备存在的故障是基于所述故障预测结果确定的,所述待处理的线路是基于所述故障预测结果和所述拓扑图确定的。
具体的,在生成报警信息时,日志报警模块会根据故障预测结果和拓扑图分析具体故障原因,如分析是目标设备出现故障,或者是目标设备与管理设备之间的线路故障,或者是与目标设备相连接的另一个设备故障导致目标设备的日志异常,从而生成报警信息。
具体的,在本实施例中,所述目标设备包括网络设备、管理设备以及终端设备,目标设备的日志数据包括网络连接状态、系统数据库运行状态、服务进程运行状态等,由于日志数据来源于不同的设备,不同设备的日志文件的格式可能不同,为了提高后续日志数据的处理效率,首先对日志数据进行转换,得到统一格式的结构化日志数据;
具体的,对日志文件的转换可通过多个正则表达式遍历日志文件的每一行,以提取日志文件中的有效信息;随后,将提取的信息添加到结构化数据对象中,以得到结构化日志数据使得转化后的数据格式统一从而提升后续的处理效率;
随后,通过日志存储模块对所述结构化日志数据进行存储;日志分析模块根据已训练的预测模型,对存储的结构化日志数据进行故障预测,得到预测结果,在本实施例中,可以采用基于决策分类树的预测模型进行预测,决策分类树比其他算法更容易理解和解释,因为它以树状结构展示了决策过程。它还可以处理复杂的数据,并且可以处理缺失值和不确定性。此外,它还可以处理非线性关系,并且可以更好地处理大量数据,适合对日志数据进行处理;所述日志报警模块,用于根据设备关联拓扑图和所述预测结果,发出报警信息,通过设备关联拓扑图,不仅能够获得预测结果相关的设备,快速对可能产生设备进行定位,并生成对应报警信息,对运维人员进行报警,实现更有效的基于日志分析的异常监控和预警,提高运维管理水平。
在本实施例中,所述日志报警模块,并不仅仅只是对日志分析模块预测有故障的设备进行报警,其还依据拓扑图对预测有故障的设备所在的链路以及相关联的设备进行报警,以提醒维修人员进行维修。由于在应用中,对设备A的日志数据进行分析,发现A为可能出现故障的设备,但是实际上导致A易出现故障的原因是因为链路原因,或是与A相关的设备B所致,但是设备B可能目前基于日志分析还很难预测到其故障,因此,采用本实施例的方式,当预测到A发生故障时,还会依据其拓扑图对所在链路以及设备B预警,让维修人员进行检修。其中初始拓扑图是基于传输相关性进行关联得到的,例如:管理设备1与终端1通过网络管理设备1进行信息交互,当管理设备1与终端1发生通信中断故障时,例如:通信中断故障为故障类型A,则考虑网络管理设备1或者是通信链路发生故障,则对链路及网络管理设备1进行检修。
实施例2:
作为本申请的一可选实施例,所述日志处理采集模块包括:
采集单元,用于通过TCP协议,从所述目标设备获取日志数据;
分类单元,用于根据所述目标设备的IP地址,对日志数据进行分类;
添加单元,用于根据所述目标设备的类型,添加类型数据至对应的所述日志数据中。
本实施例中,通过使用TCP协议获取日志数据, 随后,根据所述目标设备的IP地址,确定目标设备的类型;
最后,通过添加单元,将根据所述目标设备的类型,添加类型数据至对应的所述日志数据中,目标设备的种类不同,在后续进行结构化处理时,可首先根据类型数据对日志数据进行分类,分类后对每种设备类型的日志数据进行结构化处理。所述结构化日志数据包括与所述目标设备的类型对应的类型ID;类型数据不同的日志数据对应的结构化处理方式不同。这样可以对不同类型的设备的日志数据(即类型数据不同的日志数据)进行差异化处理。
在本实施例中,通过目标设备的IP地址可以确定目标设备的类型,结合目标设备的类型以及IP地址可以获得传输相关性信息,并构建出初始拓扑图。
实施例3:
本实施例基于实施例2,在实施例2的技术方案中,通过添加单元在日志数据中添加了对应的类型数据,故在本实施例中,所述日志处理模块,用于按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID;类型数据不同的日志数据对应的结构化处理方式不同。
不同设备的日志文件的格式可能不同,为了提高后续日志数据的处理效率,需要对日志数据进行转换,得到统一格式的结构化日志数据,具体的,本实施例中日志数据包括类型数据,首先根据类型数据对所有的日志数据进行分类,分类后,对每一种类型的日志文件统一进行结构化处理,具体的,对日志数据的转换可通过多个正则表达式遍历日志数据的每一行,以提取日志文件中的有效信息;随后,将提取的信息添加到结构化数据对象中,以得到结构化日志数据使得转化后的数据格式统一从而提升后续的处理效率;
实施例4:
一般日志文件会以数据库的形式进行存储,在进行日志文件分析预警时,会将硬盘数据库中的日志文件全部都给读到内存中,然后基于模型进行预测,这样会增加内存压力。常规的有一种解决方式为:设置一定的阈值条件,每次只从数据库中读取一定数量的日志数据,但这样又容易导致一个问题,由于数据库本身自带的保护机制,当数据库中的数据在修改时,其是不允许被读取的,导致整个数据读取的效率降低。
为解决上述技术问题,本申请提出了另一优选实施例,所述日志数据存储模块,包括:
分类存储模块,用于根据所述类型ID,将所述结构化日志数据存储在目标表中,不同的表中存储的结构化日志数据的类型ID不同;
命名单元,用于根据所述目标表中第一行数据的采集时间对所述目标表进行命名;
导出单元,用于判断所述目标表的是否满足导出条件,当所述目标表的行数大于行数阈值时,将所述目标表中的数据导出为CSV文件。
具体的,首先根据类型ID将对结构化日志数据进行分类储存于不同的表中,即每一种类型ID对应一个表。
随后,根据表文件中第一行数据的采集时间对表文件进行命名,这样命名的好处在于可以根据时间范围查找特定的日志数据以更好的对日志数据进行管理,可以更进准的确定故障设备所处的时间范围,从而实现更为精准的故障定位;
最后,判断所述目标表的是否满足导出条件,当所述目标表的行数大于行数阈值时,将所述目标表中的数据导出为CSV(Comma-Separated Values,逗号分隔值)文件,有时也称为字符分隔值文件,CSV文件的格式相对简单,可以更容易地读取和写入数据,故CSV文件可以更容易地进行数据分析,可以通过使用CSV文件来更容易地进行数据分析,从而减少数据分析对内存的消耗。
在一实施例中,所述行数阈值为5000行。
通过上述实施方式可以将数据库中表数据分段存储在CSV文件中,不同CSV文件的读取互不干扰。在后续读取过程中,可以基于需求读取所需的CSV文件。相较于直接从数据库中读取表来说,在读取时无需读取完整表,能够节省内存空间。相较于分段从数据库中读取表来说,可以改善目标表中一个或多个数据处于“死锁”状态下读取失败的情况,更加方便灵活。
实施例5:
作为本申请的一可选实施例,所述日志分析模块,包括:
遍历单元,用于根据目标表的文件名,对所有目标表进行遍历,以获得输入数据;
故障获取单元,用于将所述输入数据输入分类预测模型,以得到故障预测结果。在一个实施例中,所述故障预测结果包括所述目标设备存在的故障和所述目标设备的潜在故障中的至少一种,例如,目标设备当前日志数据与故障时日志数据匹配度超过匹配度阈值,表明目标设备存在潜在故障,则基于目标设备的潜在故障生成预测结果。
具体的,首先通过遍历单元对表文件进行遍历,以得到输入数据,随后将输入数据输入分类预测模型,以得到故障预测结果,在本实施例中,所述分类预测模型通过如下步骤进行训练:
S01、根据目标设备的日志数据,得到样本集;
S02、采用分类预测模型对所述样本集进行预测,得到所述样本集的预测结果;
S03、基于所述样本集的预测结果与所述样本集的标准结果之间的差异对所述分类预测模型进行训练,得到训练后的分类预测模型。
在一个实施例中,分类预测模型可以是基于决策树构造的;本申请中的决策树代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出;
决策分类树比其他算法更容易理解和解释,因为它以树状结构展示了决策过程。它还可以处理复杂的数据,并且可以处理缺失值和不确定性。此外,它还可以处理非线性关系,并且可以更好地处理大量数据,适合对日志数据进行处理,但由于决策分类树模型容易过拟合,需要根据测试集进行减枝技术处理。
实施例6
作为本申请的一可选实施例,参见图2,所述设备关联拓扑图包括各个设备之间的关联(如连接)关系;例如网络管理设备与终端设备之间的关联关系、管理设备与管理设备之间的关联关系等;
所述日志报警模块,用于根据管理设备与终端之间的关联关系和所述故障预测结果生成报警信息;所述报警信息用于指示与所述故障预测结果关联的设备。
所述设备关联拓扑图是拓扑分析模块根据设备之间的传输相关性构造的,拓扑分析模块还用于根据所述目标网络中各个设备之间的传输相关性确定各个设备之间的一个或多个候选故障类型,设备与设备之间的连线(即A、B、C、D)用于指示设备之间可能存在的一种或多种故障类型。
故障预测结果用于指示目标设备存在的故障。在一种实施方式中,设备关联拓扑图是周期性进行更新的,根据设备关联拓扑图和故障预测结果可以确定待处理线路。例如,假设故障预测结果指示终端1当前的故障类型为线路断裂,根据设备关联拓扑图确定终端1当前连接的是网络网管理设备1,则日志报警模块基于故障预测结果和设备关联拓扑图(指示的终端与网络管理设备的关联关系)生成报警信息。报警信息可以用于指示终端1与网络网管理设备1为当前需要维护的线路。
进一步地,当报警信息所指示的故障被排除后,与该报警信息相关的日志数据和故障排除方法会被日志报警模块关联存储,其中与报警信息相关的日志数据会作为归档日志。在后续日志数据处理过程中,可以基于目标设备的当前日志数据与归档日志之间的匹配度来对拓扑图进行自动校正。
举例来说,管理设备1与终端1通过网络管理设备1进行信息交互,当管理设备1与终端1发生通信中断故障时(举例:通信中断故障为故障类型A),则考虑网络管理设备1或者是通信链路发生故障,则对链路及网络管理设备1进行检修,或者对网络管理设备1关联的终端1进行检修。
但是在实际运行时,拓扑图会根据每次的检修结果自动进行矫正,当管理设备1与终端1发生故障A时,工作人员会对链路及网络管理设备1进行检修,并将检修结果(具体是网络管理设备1宕机还是链路线缆断裂)及报警时的相关日志数据输入日志报警模块,日志报警模块会自动对当前案例进行归类(根据检测的结果),当下一次管理设备1与终端1发生故障A时,对这一次的日志数据与日志报警模块的归档日志/>进行相似度匹配,若匹配度高于80%,则对拓扑结构进行自动校正,即拓扑图中的管理设备1直接以线段A与终端1连接,跨过了网络管理设备1。通过本申请的实施方式,可以使得故障定位能够更加准确,能够提供直观的网络拓扑视图,帮助用户更好地了解网络结构,从而快速定位和解决问题,提高工作效率。
在一种实施方式中,日志数据与归档日志之间的匹配度的具体计算方式如下:
其中,为当前日志数据中第/>个字段的值,/>为当前日志数据的字段平均值, />为归档/>日志数据中第/>个字段的值,/>为归档日志数据的字段平均值, />代表的日志数据的字段长度, />为相似度, />和/>为两个权重系数,其取值规则为:
(1)当和/>符合二元正态时,/>值取1,/>值取0。
(2)当和/>不符合二元正态时,/>值取0.9,/>值取0.1。
原因在于,在样本符合二元正态时,Pearson系数能给相关性的完整描述,相同设备的日志数据是符合二元正态分布的,但不排除存在异常情况,Pearson系数对偏离正态性是敏感的,外点容易影响样本的潜在关联性挖掘。因此使用Kendall系数对样本相关性计算进行矫正,Kendall系数为一种秩相关系数,其对样本分布无特殊要求,但在样本符合二元正态的情况下其描述完整性不如Pearson系数。
本发明对现有日志数据不符合二元正态分布的外点进行了统计,统计结果为外点占比为10%,因此在规则(2)中值取0.9,/>值取0.1,规则(2)只是最优实施,其取值可以根据外点占比进行调整。
实施例7:
另一方面,为解决上述技术问题,参见图3,本申请还公开了一种基于日志分析的系统故障监测和预警方法,包括以下步骤:
S1、采集目标设备的日志数据;
S2、按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据, 其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID,类型数据不同的日志数据对应的结构化处理方式不同;
S3、对所述结构化日志数据进行存储;
S4、根据已训练的基于分类预测模型,对存储的结构化日志数据进行故障预测,得到预测结果;
S5、按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行初始化的,所述拓扑图中包括所述至少两个设备之间的连接关系;
S6、根据所述拓扑图和所述故障预测结果,发出报警信息提醒检修人员检修;所述报警信息包括所述目标设备存在的故障和待处理的线路,所述目标设备存在的故障是基于所述故障预测结果确定的,所述待处理的线路是基于所述故障预测结果和所述拓扑图确定的。
需要说明的是,本实施例中基于日志分析的系统故障监测和预警方法中各步骤是与前述实施例中基于日志分析的系统故障监测和系统中的各模块一一对应,因此,本实施例的具体实施方式可参照前述基于日志分析的系统故障监测和预警系统的实施方式,这里不再赘述。
在本发明的实施例的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了使于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。其中,“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。
在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“组装”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之同的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B''表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于日志分析的系统故障监测和预警系统,其特征在于,包括:
日志采集模块;
日志处理模块;
日志存储模块;
日志分析模块;
拓扑分析模块;
日志报警模块;
日志归档模块;
其中,
所述日志采集模块,用于采集目标设备的日志数据;
所述日志处理模块,用于按照所述日志数据的类型数据,对所述日志数据进行结构化处理,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID,类型数据不同的日志数据对应的结构化处理方式不同;
所述日志存储模块,用于对所述结构化日志数据进行存储;
所述日志分析模块,用于根据已训练的基于分类预测模型,对存储的结构化日志数据进行故障预测,得到故障预测结果;
所述拓扑分析模块,用于按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行初始化的,所述拓扑图中包括所述至少两个设备之间的连接关系;以及用于将预测故障设备对应的当前日志数据与日志归档模块中的日志数据进行相似度匹配,并依据相似度匹配结果对所述拓扑图进行自动校正更新;
所述相似度匹配具体为:
其中, 为当前日志数据中第/>个字段的值,/>为当前日志数据中第j个字段的值,/>为当前日志数据的字段平均值,/>为归档日志数据中第/>个字段的值,/>为归档日志数据中第j个字段的值,/>为归档日志数据的字段平均值, />代表的日志数据的字段长度,/>为相似度,/>和/>为两个权重系数;
所述日志报警模块,用于根据所述拓扑图和所述故障预测结果,发出报警信息提醒检修人员检修;所述报警信息包括所述目标设备存在的故障和待处理的线路,所述目标设备存在的故障是基于所述故障预测结果确定的,所述待处理的线路是基于所述故障预测结果和所述拓扑图确定的;
所述日志归档模块用于将设备检修结果和报警设备的相关日志数据进行关联存储。
2.根据权利要求1所述的一种基于日志分析的系统故障监测和预警系统,其特征在于:
所述日志采集模块包括:
采集单元,用于通过TCP协议,从所述目标设备获取日志数据;
分类单元,用于根据所述目标设备的IP地址,确定所述目标设备的类型;
添加单元,用于根据所述目标设备的类型,添加类型数据至对应的所述日志数据中。
3.根据权利要求1所述的一种基于日志分析的系统故障监测和预警系统,其特征在于:
所述日志数据存储模块,包括:
分类存储模块,用于根据所述类型ID,将所述结构化日志数据存储在目标表中,不同的表中存储的结构化日志数据的类型ID不同;
命名单元,用于根据所述目标表中第一行数据的采集时间对所述目标表进行命名;
导出单元,用于判断所述目标表的是否满足导出条件,当所述目标表的行数大于行数阈值时,将所述目标表中的数据导出为CSV文件。
4.根据权利要求1所述的一种基于日志分析的系统故障监测和预警系统,其特征在于,所述报警信息还包括所述目标设备关联的待检测设备;
所述日志报警模块,还用于根据所述拓扑图和所述故障预测结果确定与所述目标设备和所述待处理的线路相关联的待检测设备。
5.根据权利要求1所述的一种基于日志分析的系统故障监测和预警系统,其特征在于,所述分类预测模型通过如下步骤进行训练:
根据目标设备的日志数据,得到样本集;
采用分类预测模型对所述样本集进行预测,得到所述样本集的预测结果;
基于所述样本集的预测结果与所述样本集的标准结果之间的差异对所述分类预测模型进行训练,得到训练后的分类预测模型。
6.根据权利要求3所述的一种基于日志分析的系统故障监测和预警系统,其特征在于,所述行数阈值为5000行。
7.根据权利要求1所述的一种基于日志分析的系统故障监测和预警系统,其特征在于,所述目标设备包括:网络设备、管理设备、终端设备。
8.一种基于日志分析的系统故障监测和预警方法,其特征在于,包括以下步骤:
采集目标设备的日志数据;
对所述日志数据进行结构化,得到结构化日志数据,其中,所述结构化日志数据包括与所述目标设备的类型对应的类型ID;类型数据不同的日志数据对应的结构化处理方式不同;
对所述结构化日志数据进行存储;
根据已训练的基于分类预测模型,对存储的结构化日志数据进行故障预测,得到故障预测结果;
按照预设条件更新所述目标设备所属目标网络的拓扑图,所述目标网络由至少两个设备组成,所述拓扑图是根据所述目标网络中各个设备之间的传输相关性进行初始化的,所述拓扑图中包括所述至少两个设备之间的连接关系;所述拓扑图是基于相似度匹配结果进行更新的,所述相似度匹配具体为:
其中, 为当前日志数据中第/>个字段的值,/>为当前日志数据中第j个字段的值,/>为当前日志数据的字段平均值,/>为归档日志数据中第/>个字段的值,/>为归档日志数据中第j个字段的值,/>为归档日志数据的字段平均值, />代表的日志数据的字段长度,/>为相似度,/>和/>为两个权重系数;
根据所述拓扑图和所述故障预测结果,发出报警信息提醒检修人员检修;所述报警信息包括所述目标设备存在的故障和待处理的线路,所述目标设备存在的故障是基于所述故障预测结果确定的,所述待处理的线路是基于所述故障预测结果和所述拓扑图确定的。
CN202310438587.3A 2023-04-23 2023-04-23 一种基于日志分析的系统故障监测和预警系统及方法 Active CN116192612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310438587.3A CN116192612B (zh) 2023-04-23 2023-04-23 一种基于日志分析的系统故障监测和预警系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310438587.3A CN116192612B (zh) 2023-04-23 2023-04-23 一种基于日志分析的系统故障监测和预警系统及方法

Publications (2)

Publication Number Publication Date
CN116192612A CN116192612A (zh) 2023-05-30
CN116192612B true CN116192612B (zh) 2023-07-25

Family

ID=86449257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310438587.3A Active CN116192612B (zh) 2023-04-23 2023-04-23 一种基于日志分析的系统故障监测和预警系统及方法

Country Status (1)

Country Link
CN (1) CN116192612B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615019A (zh) * 2022-02-15 2022-06-10 北京云集智造科技有限公司 基于微服务拓扑关系生成的异常检测方法与系统
US11561849B1 (en) * 2022-01-05 2023-01-24 International Business Machines Corporation Intelligently adaptive log level management of a service mesh

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444B (zh) * 2015-12-23 2018-07-13 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
US10469307B2 (en) * 2017-09-26 2019-11-05 Cisco Technology, Inc. Predicting computer network equipment failure
CN108038049B (zh) * 2017-12-13 2021-11-09 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN110691070B (zh) * 2019-09-07 2022-02-11 温州医科大学 一种基于日志分析的网络异常预警方法
CN110855503A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于网络协议层级依赖关系的故障定因方法和系统
CN110855502A (zh) * 2019-11-22 2020-02-28 叶晓斌 一种基于时空分析日志的故障定因方法和系统
CN111488265A (zh) * 2020-04-27 2020-08-04 北京奇艺世纪科技有限公司 故障预测方法、装置、设备及可读存储介质
CN111930592A (zh) * 2020-07-20 2020-11-13 国网浙江省电力有限公司嘉兴供电公司 一种实时检测日志序列异常的方法和系统
US11704490B2 (en) * 2020-07-31 2023-07-18 Splunk Inc. Log sourcetype inference model training for a data intake and query system
CN114077663A (zh) * 2020-08-10 2022-02-22 中国移动通信集团浙江有限公司 应用日志的分析方法及装置
CN112363896B (zh) * 2020-09-02 2023-12-05 大连大学 日志异常检测系统
CN113485878B (zh) * 2021-07-06 2022-11-11 国网江苏省电力有限公司信息通信分公司 一种多数据中心故障检测方法
CN114553672B (zh) * 2022-04-25 2022-08-02 苏州浪潮智能科技有限公司 一种应用系统性能瓶颈确定方法、装置、设备、介质
CN115658546A (zh) * 2022-11-15 2023-01-31 安徽大学 一种基于异质信息网络的软件故障预测方法及系统
CN115766417A (zh) * 2022-11-19 2023-03-07 珠海华发新科技投资控股有限公司 一种统一监控管理平台
CN115981984A (zh) * 2023-01-06 2023-04-18 郑州云海信息技术有限公司 一种设备故障检测方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11561849B1 (en) * 2022-01-05 2023-01-24 International Business Machines Corporation Intelligently adaptive log level management of a service mesh
CN114615019A (zh) * 2022-02-15 2022-06-10 北京云集智造科技有限公司 基于微服务拓扑关系生成的异常检测方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Failure prediction based on log files using Random Indexing and Support Vector Machines";I Fronza等;I Fronza;全文 *

Also Published As

Publication number Publication date
CN116192612A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
US20220137612A1 (en) Transformer fault diagnosis and positioning system based on digital twin
CN111931834B (zh) 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
CN113420162B (zh) 一种基于知识图谱的设备运行链状态监测方法
CN110866616A (zh) 一种变电站二次设备故障预警方法及装置
CN106656620A (zh) 网络设备监控处理方法及系统
CN115865649A (zh) 一种智能运维管理控制方法、系统和存储介质
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN112464439A (zh) 基于三层数据挖掘的电力系统故障类型分析方法及装置
CN109737045A (zh) 应用于芯片生产的空压机故障预警方法、系统及相关装置
CN117148045A (zh) 配电网运行状态的故障研判管理系统
CN115524002A (zh) 一种电厂旋转设备的运行状态预警方法、系统及存储介质
CN116010456A (zh) 设备的处理方法、服务器和轨道交通系统
CN106652393B (zh) 假警报确定方法及装置
CN108446202B (zh) 一种机房设备的安全状况的判断方法
CN114610553A (zh) 一种智能设备检测系统及其检测方法
CN116192612B (zh) 一种基于日志分析的系统故障监测和预警系统及方法
CN117331790A (zh) 一种用于数据中心的机房故障检测方法及装置
CN116863664A (zh) 燃气设备的实时监测方法以及燃气设备监测系统
CN113011325B (zh) 一种基于孤立森林算法的堆垛机轨道损伤定位方法
CN113836203A (zh) 一种网络数据化诊断检测分析系统
CN115270982A (zh) 一种基于多元数据神经网络的开关柜故障预测方法
CN111740856B (zh) 基于异常检测算法的网络通信设备告警采集异常预警方法
CN117688464B (zh) 一种基于多源传感器数据的隐患分析方法及系统
CN116778688B (zh) 机房告警事件处理方法、装置、设备及存储介质
CN117131251B (zh) 一种基于云计算的多维数据分析处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant