CN116126807A - 一种日志分析方法及相关装置 - Google Patents

一种日志分析方法及相关装置 Download PDF

Info

Publication number
CN116126807A
CN116126807A CN202211704431.7A CN202211704431A CN116126807A CN 116126807 A CN116126807 A CN 116126807A CN 202211704431 A CN202211704431 A CN 202211704431A CN 116126807 A CN116126807 A CN 116126807A
Authority
CN
China
Prior art keywords
log
logs
structured
structured system
system log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211704431.7A
Other languages
English (en)
Inventor
王茜
戴之光
马晓平
孙淮松
冯毅
汤宇
娄峰
耿欣
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202211704431.7A priority Critical patent/CN116126807A/zh
Publication of CN116126807A publication Critical patent/CN116126807A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种日志分析方法,涉及计算机技术领域,包括:将非结构化的系统日志转化为结构化的系统日志;对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;根据所述日志数量,确定日志数量异常的系统日志集;为所述系统日志集中所述结构化的系统日志的不同字段分配权重。该方法能够实现高效且轻量级的日志分析。本申请还公开了一种日志分析装置、设备以及计算机可读存储介质,均具有上述技术效果。

Description

一种日志分析方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种日志分析方法;还涉及一种日志分析装置、设备以及计算机可读存储介质。
背景技术
系统日志包含着丰富的信息,因此可用于多种场景分析,例如设备软件/硬件状态检测,网络行为分析,用户行为分析,入侵检测,故障定位与诊断,性能评估,预测性维护等。然而,日志分析过程存在以下特点:1)系统日志是非结构化的,且往往因设备类型、供应商、型号、操作系统不同而不同,因此目前的日志分析大多由运维工程师人为进行的,这样需要耗费大量的时间和精力,并且日志数据错综复杂,基于人力的日志分析往往会导致异常信息的遗漏;2)系统日志数量巨大,因此在故障排查时,为了准确找出故障,运维工程师总是搜索一定时间窗口内相关设备的系统日志,从大量非结构化异构日志中提取所需要的有用信息,该操作往往费时费力,且容易忽略一些被普通日志淹没的细节。虽然基于系统日志其文本数据本质及结构可解析性,可以通过诸如主成分分析、奇异值分解等的数学算法以及各类机器学习算法方法进行日志分析,但是这些机器学习算法相对复杂,对系统的计算能力要求较高。而对于诸如主成分分析、奇异值分解等的数据分析方法,在面对数量巨大且非结构化的文本时,其分析效率往往较低,且并不适用于实时检测,可移植性低。
因此,提供一种高效且轻量级的日志分析方案已成为本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种日志分析方法,能够实现高效且轻量级的日志分析。本申请的另一个目的是提供一种日志分析装置、设备以及计算机可读存储介质,均具有上述技术效果。
为解决上述技术问题,本申请提供了一种日志分析方法,包括:
将非结构化的系统日志转化为结构化的系统日志;
对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
根据所述日志数量,确定日志数量异常的系统日志集;
为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
可选的,所述对所述结构化的系统日志进行分类包括:
将所述结构化的系统日志转化为多维向量;
通过聚类算法处理所述多维向量,得到所述结构化的系统日志的类别。
可选的,所述为所述系统日志集中所述结构化的系统日志的不同字段分配权重包括:
为所述结构化的系统日志的时间戳、事件级别、日志标识以及事件详细信息分配权重。
可选的,为所述结构化的系统日志的事件详细信息分配权重包括:
提取事件详细信息模板;
根据所述事件详细信息模板建立异常词库;
为所述异常词库中的单词赋予权重。
可选的,所述提取事件详细信息模板包括:
使用FT-Tree提取事件详细信息模板。
可选的,所述确定日志数量异常的系统日志集包括:
通过统计学算法对日志数量进行异常检测;
通过预设过滤规则对所述统计学算法的检测结果进行二次过滤,确定所述系统日志集。
可选的,所述通过统计学算法对日志数量进行异常检测包括:
通过nsigma算法对所述日志数量进行异常检测。
为解决上述技术问题,本申请还提供了一种日志分析装置,包括:
转化模块,用于将非结构化的系统日志转化为结构化的系统日志;
分类模块,用于对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
日志数量确定模块,用于根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
日志集确定模块,用于根据所述日志数量,确定日志数量异常的系统日志集;
分配模块,用于为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
为解决上述技术问题,本申请还提供了一种日志分析设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的日志分析方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的日志分析方法的步骤。
本申请所提供的日志分析方法,包括:将非结构化的系统日志转化为结构化的系统日志;对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;根据所述日志数量,确定日志数量异常的系统日志集;为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
可见,本申请所提供的日志分析方法,层次化的进行日志分析,在自动将非结构化的系统日志转化为结构化的系统日志的基础上,对系统日志设置日志权重并基于日志权重确定日志数量,进而进行日志数量异常检测,以及为日志数量异常的系统日志的不同字段分配权重,以便于根据系统日志字段及其权重进行系统日志异常检测。相较于人工分析以及通过各类机器学习算法方法等进行日志分析的传统技术方案,本申请日志分析方法能够实现高效且轻量级的日志分析。
本申请所提供的日志分析装置、设备以及计算机可读存储介质均具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种日志分析方法的流程示意图;
图2为本申请实施例所提供的一种日志分析流程示意图;
图3为本申请实施例所提供的一种日志分析装置的示意图;
图4为本申请实施例所提供的一种日志分析设备的示意图。
具体实施方式
本申请的核心是提供一种日志分析方法,能够实现高效且轻量级的日志分析。本申请的另一个核心是提供一种日志分析装置、设备以及计算机可读存储介质,均具有上述技术效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种日志分析方法的流程示意图,参考图1所示,该方法包括:
S101:将非结构化的系统日志转化为结构化的系统日志;
步骤S101旨在对系统日志进行预处理,将原始的非结构化的系统日志转换为结构化的系统日志。虽然不同厂商、不同型号、不同类型的设备的系统日志定义方式不同,但是通常系统日志由多个字段组成。例如,包括时间戳、设备ID/设备名、事件级别、日志标识、事件详细信息等。时间戳是指生成系统日志时的系统时间,设备ID/设备名是指生成系统日志的设备ID/设备名,事件级别表征系统日志记录的事件严重程度,日志标识是一个信息类型描述符,事件详细信息包含描述事件的自由格式文本。
可以使用诸如ELK平台等的日志管理平台处理原始的非结构化的系统日志。ELK是Elasticsearch,Logstash与Kibana的简称,是一个广泛使用的日志管理平台。Logstash负责从不同的信息源即不同的设备中提取系统日志中的事件数据,并且将这些非结构化的原始的事件数据转换为一系列的结构化的事件数据,然后存入Elasticsearch。Elasticsearch类似于一个数据库,存储着ELK平台中的核心数据。Kibana是一个数据展示工具,从Elasticsearch中读取结构化的日志数据,按照用户的要求绘制不同的图表以便于进行数据分析。
S102:对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
S103:根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
S104:根据所述日志数量,确定日志数量异常的系统日志集;
步骤S102至步骤S104旨在进行日志数量异常检测。日志数量异常检测的一种简单的实现方式可以是计算每个固定的时间片内系统日志的数量,并判断每个固定的时间片内系统日志的数量是否超出阈值。然而这种检测方式会存在如下问题:1)在大量无用或重复信息发生的时间片内检测会出现错误,如“用户登录”,“密码错误”,“超时退出”,“非法指令”等,当类似情况出现时,可能导致待检测的时间片内日志数量激增,从而使检测出现错误。2)阈值需要随着业务的调整进行手动优化而带来不够灵活,扩展性较弱等问题;当待检测指标较多时,运维人员很难及时、准确对阈值做出调整,所以在不同场景下,经常造成误报或漏报。例如,阈值设定较高但业务处于低峰时,会导致漏报;当阈值较低但业务处于高峰时,会导致短时间内大量的重复告警。
为了规避上述问题,本实施例采取如下方式进行日志数量异常检测:
依据香农信息论中“熵”的定义:
Figure BDA0004025792410000051
大写的P表示不同类型的系统日志,小写的p表示一定时间内不同类型的系统日志出现的概率。
一个信息源发送什么信息是不确定的,可以用其出现的概率来衡量其所代表的信息量,概率越大,出现几率越高,不确定性就越小,反之,不确定性就越大。在系统日志分析场景下,一些系统日志,经常出现在很多时间片中,或者周期性大量出现在特定时间片中,这认为正常的。例如:用户登录信息。反之,一些系统日志出现的频率很低,需要运维人员重点关注。因此可将经常性的系统日志进行过滤,保留突变的系统日志重点分析,且尽量消除周期性带来的影响。故为出现频率较高的事件赋予较低的权重,使其能够容易被过滤掉;为出现频率较低的事件赋予较高的权重,使得突变的事件更加突出。基于此,本实施例首先对系统日志进行分类,然后对各类别的系统日志设定对应的日志权重。
其中,可以依据系统日志的某个字段对系统日志进行分类,例如:依据“事件级别”进行分类。然而上述分类方法的准确性较低,因为事件发生的频率并不仅仅由事件级别这一个单一的字段决定。更合理的方式应当是尽量挖掘系统日志中的信息,提高分类精确度。因此在一种具体的实施方式中,所述对所述结构化的系统日志进行分类包括:将所述结构化的系统日志转化为多维向量;通过聚类算法处理所述多维向量,得到所述结构化的系统日志的类别。
虽然不同的系统日志从字面看来完全不同,但是其都是由相同的字段类别构成的,区别仅仅在于各字段的内容。因此可以将系统日志看作是一个多维向量,该向量的某一个维度就是一个字段,该字段的内容就是这个多维向量在该维度的取值。
为了适配算法实现,可将字段文本数据数字化。离散的字段设置方式为数字化提供了便利,即往往某个字段是从一个离散的状态集中取值的。例如,“事件级别”通常都是由几个固定的严重性级别表示,这种情况下,只需要对不同的级别赋予不同的数字即可,如对0—7个不同的严重性级别进行编码表示,其他字段也可以利用该方法进行类似处理。为了后续模型训练更加准确,可以在编码的基础上加入归一化的操作。经过上述步骤后便实现了对大量文本类别的日志数据数字化,且没有丢失任何信息。结合图2所示,对编码后的向量数据,采用机器学习中的聚类算法(一种非监督的机器学习算法)对一定时间段内的历史数据进行模型训练。训练后得到的模型可以对未来的系统日志进行高效地自动分类。
对系统日志进行归类后,为每类日志赋予不同的权重。权重的设定可以直接通过专家运维经验,也可以通过对固定时间内历史数据的分析得到,具体方式可以如下:选取一段时间内的历史数据,该选取的时间段长度应尽量包含完整的业务/硬件性能周期,统计不同类型的日志数量,基于“熵”原理,权重应当与出现的频数成反比。
其中,如果系统的计算能力允许,还可以借助深度学习算法,直接对系统日志进行权重标注,即通过训练(训练数据由聚类算法和反比权重标注给出),使得深度学习模型可以对未知的日志进行分类,然后对出现频率较低的日志予以重点的关注。另外,可以周期性的更新深度学习模型。
确定系统日志的日志权重后,进一步确定日志数量以及确定日志数量异常的系统日志集。
在一种具体的实施方式中,所述确定日志数量异常的系统日志集包括:通过统计学算法对日志数量进行异常检测;通过预设过滤规则对所述统计学算法的检测结果进行二次过滤,确定所述系统日志集。其中,所述通过统计学算法对日志数量进行异常检测可以包括:通过nsigma算法对所述日志数量进行异常检测。
具体而言,设定时间片间隔为τ,统计[t,t+τ]区间内的日志数量。采用滑动窗口机制,滑动时间间隔为μ;其中,μ<τ)。设定检测区间大小与算法参数n,通过统计学算法nsigma对滑动窗口中日志数量形成的待检测序列进行异常检测,检测出日志数量突增与突减的情况。
其中,对时间片间隔内所产生的系统日志以及各系统日志对应的权重进行加权相加后,得到时间片内的日志数量。
另外,可以通过粗略判断指标是否具有周期性,并根据周期长度的不同,选取不同的数据段进行拼接。例如:应用场景中没有明显的周期性,可选择当前时间点前t0时段作为待检测序列。当周期性较短,大致以天为单位,可选择当前时间点前t0时段与前一天同时间点前后t0时段拼接作为待检测序列。同理当周期性较长,大致以周为单位,可选择当前时间点前t0时段与前一周同时间点前后t0时段拼接作为待检测序列。
预设过滤规则可以差异性设置,以使检测更符合实际的应用场景。例如,可以只针对日志数量的大量突增进行检测,即加入斜率为正值的过滤条件。此时在检测出日志数量突增与突减的情况下,过滤掉突减的情况而保留突增的情况。或者,在通过统计学算法nsigma进行异常检测的基础上,采用动态阈值的方式进行二次过滤。动态阈值可以描述为一个多项式,多项式可表示如下:
T=f(t1,t2,…,tn)=a1t1+a2t2+…+antn;其中,t1,t2,…,tn表示影响动态阈值的因素,例如:设备等级、设备关联的业务等级、设备流量数量级等;a1,a2,…,an表示不同因素在动态阈值中所占的权重,该权重可以通过运维经验预先设定,也可以通过历史数据通过统计学拟合得到。
此外,在实际应用中,单台设备或相同功能区内日志的数量存在一定的周期性,因此在算力允许的情况下,可以针对部分核心设备或核心功能区使用基于增强学习的算法来挖掘周期性的模式,以此来增加检测的精度。通过训练一个代理agent,使得其能够准确地根据所观察到的日志数量和内容来判断是否有异常的发生,成功的检测将获得正反馈,而漏检或者误检将导致一定的惩罚。经过长时间的训练,该代理能够寻找到一个近似最优的准则来最大化累积增益,据此决定是否设定周期性,以及如果设定周期性,周期性具体为多少。在增强学习算法中,环境的状态可以定义为日志的内容或者单位时间的数量,代理的动作可以定义为是否检测到了异常,而奖励机制由是否准确预判而确定。
S105:为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
通过执行步骤S101至S104可以得到某时间片内被判定为异常数量的结构化的系统日志日集。步骤S105旨在针对该系统日志集中系统日志的不同字段所表征的信息量不同,选择不同的权重策略,设置相应的权重,以便进行系统日志异常检测。
在一种具体的实施方式中,所述设置所述日志数量异常的日志集中所述结构化日志的不同字段的权重包括:
设置所述结构化日志的时间戳、事件级别、日志标识以及事件详细信息的权重。
具体而言,时间戳代表生成系统日志时的系统时间,可以通过判断是否为业务高峰期进行权重区分。例如:每天的09:00-17:00可视为业务高峰期,每天的17:00-次日09:00可视为业务低峰期,业务高峰期的权重高于业务低峰期的权重。
事件级别代表事件的严重程度,通常用一个数字区间或几个离散的严重性级别来表示。例如:厂商1的系统日志的事件级别用0—7的数字范围表示,数字越小,越关键,优先级越高。厂商2的系统日志的事件级别可以用“Major”、“Warning”、“Error”三个离散的级别表示。一般而言,不同的严重性级别的权重应当与其表征的严重性成正比,因此可以采用线性机制。或者也可以使用对数机制,取对数之后不会改变数据的性质和相关关系,但可以压缩变量的尺度,其具体表现为:对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。因此,为了增加对较高严重级别的敏感程度,权重的选取策略可以是在对数机制的基础上取倒数。
简单的日志异常检测可以通过上述权重的选取策略判断该条日志的重要情况,但在某些复杂情况下,该字段只能指征单台设备单一属性的异常情况,无法指示该事件对业务,对网络,对其他设备的实际影响程度。因此,本实施例不直接将该字段作为日志异常检测的指标,而是作为系统日志分析的一部分。
日志标识是对事件和事件变化的简要介绍,以及不同类型日志的大致分类。一般而言,一台设备只有有限多种消息类型,如“用户登录”,“密码错误”,“超时退出”,“非法指令”等。因此,日志标识的权重可以直接定义为几个离散的值,并在验证过程中,根据实际情况进行适当调整。
事件详细信息是各个模块实际向信息中心输出的字符串信息,由各个模块在每次输出时填充,详细描述该日志的具体内容。不同的设备有不同的事件描述方式,但事件详细信息大多可以被解析为带有一些特定参数(变量部分:例如:IP地址信息、用户信息、接口信息等)的事件模板(常量部分)。常量部分由固定的纯文本构成,并表示相应的事件类型。事件详细信息的常量部分类似于是在消息类型字段下进一步划分的子集,因此其通常也是从具有有限数量类型集中进行选择的(有利于进行数值化转化)。变量部分记录日志的差异部分/运行时信息、状态和参数的值(例如,端口号等),其可能因不同事件的发生而有所不同(该部分有利于进行事件定位和具体分析)。
对不同的事件详细信息分配权重,首先对事件详细信息进行分类,其中一种方式为自动分离原始的系统日志的常量部分和变量部分,即离线去参数化或模板提取,并在线将系统日志与固定的模板进行匹配。
模板的提取可以通过不同的方式实现,例如:1)使用预定义的正则表达式。2)使用关联分析算法。3)使用其他基于规则或机器学习算法的日志解析器。例如:根据运维领域知识手动检查系统日志或编写规则来检测,并额外加入关键字搜索(如:“warning”,“error”等);使用基于LSTM(长短期记忆网络)进行文本识别和分类等。
在一种具体的实施方式中,为所述结构化的系统日志的事件详细信息分配权重包括:提取事件详细信息模板;根据所述事件详细信息模板建立异常词库;为所述异常词库中的单词赋予权重。其中,所述提取事件详细信息模板可以包括:使用FT-Tree提取事件详细信息模板。
FT-Tree是一种基于频繁模式树模型的智能算法,用于识别系统日志中单词的频繁项组合,生成消息模板。相比于基于规则或正则表达式的模板提取方式,FT-Tree准确度更高,且支持增量学习。本实施例中异常词库的定义不是只包含类似“warning”或“error”等的关键字集合,而是在历史数据样本中任何可能携带“异常”信息的词库。具体可以分为以下三个步骤:
使用FT-Tree提取事件详细信息模板:一个正确的模板,通常是在系统日志中频繁出现的单词的组合。此外,FT-Tree在建立模板树的同时,通过剪枝,可以将系统日志中的可变部分进行剔除,因此可自动完成常量部分和可变部分的分离。
具体而言,异常词库的建立:通过FT-Tree可以得到一个训练后的日志模板库(该库中的每一个成员是一种事件详细信息单词的组合),本实施例基于该日志模板库,通过如下方式提取得到一个可用的异常词库:1)统计该日志模板库中所有出现单词的集合(不区分词性);2)统计该单词集合中每个单词在训练集中出现的频数;3)人为设定或依据绘制频率分布直方图后的统计信息,选取合适的区间,定义频数出现在该区间内的单词被加入到异常词库;4)异常词库可以有多个,且不同异常词库的异常级别不同,选取的词频区间不同。
为异常词库中的单词赋予权重:异常词库中每个单词的权重可以通过以下机制计算得到:1)取每个单词频数的反比,进行归一化;2)基于“熵”的原理,权重定义为该单词“信息量”的大小。
综上所述,本申请所提供的日志分析方法,层次化的进行日志分析,在自动将非结构化的系统日志转化为结构化的系统日志的基础上,对系统日志设置日志权重并基于日志权重确定日志数量,进而进行日志数量异常检测,以及为日志数量异常的系统日志的不同字段分配权重,以便于根据系统日志字段及其权重进行系统日志异常检测。相较于人工分析以及通过各类机器学习算法方法等进行日志分析的传统技术方案,本申请日志分析方法能够实现高效且轻量级的日志分析。
本申请还提供了一种日志分析装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图3,图3为本申请实施例所提供的一种日志分析装置的示意图,结合图3所示,该装置包括:
转化模块10,用于将非结构化的系统日志转化为结构化的系统日志;
分类模块20,用于对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
日志数量确定模块30,用于根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
日志集确定模块40,用于根据所述日志数量,确定日志数量异常的系统日志集;
分配模块50,用于为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
在上述实施例的基础上,作为一种具体的实施方式,分类模块20包括:
转化单元,用于将所述结构化的系统日志转化为多维向量;
处理单元,用于通过聚类算法处理所述多维向量,得到所述结构化的系统日志的类别。
在上述实施例的基础上,作为一种具体的实施方式,分配模块50具体用于:
为所述结构化的系统日志的时间戳、事件级别、日志标识以及事件详细信息分配权重。
在上述实施例的基础上,作为一种具体的实施方式,分配模块50包括:
提取单元,用于提取事件详细信息模板;
建立单元,用于根据所述事件详细信息模板建立异常词库;
赋值单元,用于为所述异常词库中的单词赋予权重。
在上述实施例的基础上,作为一种具体的实施方式,提取单元具体用于:
使用FT-Tree提取事件详细信息模板。
在上述实施例的基础上,作为一种具体的实施方式,日志集确定模块40包括:
检测单元,用于通过统计学算法对日志数量进行异常检测;
过滤单元,用于通过预设过滤规则对所述统计学算法的检测结果进行二次过滤,确定所述系统日志集。
在上述实施例的基础上,作为一种具体的实施方式,检测单元具体用于:
通过nsigma算法对所述日志数量进行异常检测。
本申请所提供的日志分析装置,层次化的进行日志分析,在自动将非结构化的系统日志转化为结构化的系统日志的基础上,对系统日志设置日志权重并基于日志权重确定日志数量,进而进行日志数量异常检测,以及为日志数量异常的系统日志的不同字段分配权重,以便于根据系统日志字段及其权重进行系统日志异常检测。相较于人工分析以及通过各类机器学习算法方法等进行日志分析的传统技术方案,本申请日志分析装置能够实现高效且轻量级的日志分析。
本申请还提供了一种日志分析设备,参考图4所示,该设备包括存储器1和处理器2。
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序实现如下的步骤:
将非结构化的系统日志转化为结构化的系统日志;
对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
根据所述日志数量,确定日志数量异常的系统日志集;
为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
对于本申请所提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:
将非结构化的系统日志转化为结构化的系统日志;
对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
根据所述日志数量,确定日志数量异常的系统日志集;
为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的日志分析方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围。

Claims (10)

1.一种日志分析方法,其特征在于,包括:
将非结构化的系统日志转化为结构化的系统日志;
对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
根据所述日志数量,确定日志数量异常的系统日志集;
为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
2.根据权利要求1所述的日志分析方法,其特征在于,所述对所述结构化的系统日志进行分类包括:
将所述结构化的系统日志转化为多维向量;
通过聚类算法处理所述多维向量,得到所述结构化的系统日志的类别。
3.根据权利要求1所述的日志分析方法,其特征在于,所述为所述系统日志集中所述结构化的系统日志的不同字段分配权重包括:
为所述结构化的系统日志的时间戳、事件级别、日志标识以及事件详细信息分配权重。
4.根据权利要求1所述的日志分析方法,其特征在于,为所述结构化的系统日志的事件详细信息分配权重包括:
提取事件详细信息模板;
根据所述事件详细信息模板建立异常词库;
为所述异常词库中的单词赋予权重。
5.根据权利要求4所述的日志分析方法,其特征在于,所述提取事件详细信息模板包括:
使用FT-Tree提取事件详细信息模板。
6.根据权利要求1所述的日志分析方法,其特征在于,所述确定日志数量异常的系统日志集包括:
通过统计学算法对日志数量进行异常检测;
通过预设过滤规则对所述统计学算法的检测结果进行二次过滤,确定所述系统日志集。
7.根据权利要求6所述的日志分析方法,其特征在于,所述通过统计学算法对日志数量进行异常检测包括:
通过nsigma算法对所述日志数量进行异常检测。
8.一种日志分析装置,其特征在于,包括:
转化模块,用于将非结构化的系统日志转化为结构化的系统日志;
分类模块,用于对所述结构化的系统日志进行分类,并根据所述结构化的系统日志的类别确定所述结构化的系统日志的日志权重;
日志数量确定模块,用于根据预设时间片内产生的所述结构化的系统日志与对应的所述日志权重,得到所述预设时间片内的日志数量;
日志集确定模块,用于根据所述日志数量,确定日志数量异常的系统日志集;
分配模块,用于为所述系统日志集中所述结构化的系统日志的不同字段分配权重。
9.一种日志分析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的日志分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的日志分析方法的步骤。
CN202211704431.7A 2022-12-29 2022-12-29 一种日志分析方法及相关装置 Pending CN116126807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211704431.7A CN116126807A (zh) 2022-12-29 2022-12-29 一种日志分析方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211704431.7A CN116126807A (zh) 2022-12-29 2022-12-29 一种日志分析方法及相关装置

Publications (1)

Publication Number Publication Date
CN116126807A true CN116126807A (zh) 2023-05-16

Family

ID=86309457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211704431.7A Pending CN116126807A (zh) 2022-12-29 2022-12-29 一种日志分析方法及相关装置

Country Status (1)

Country Link
CN (1) CN116126807A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701147A (zh) * 2023-06-12 2023-09-05 北京优特捷信息技术有限公司 一种日志数据处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701147A (zh) * 2023-06-12 2023-09-05 北京优特捷信息技术有限公司 一种日志数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111782472B (zh) 系统异常检测方法、装置、设备及存储介质
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN111506478A (zh) 基于人工智能实现告警管理控制的方法
CN111639497A (zh) 一种基于大数据机器学习的异常行为发现方法
CN113190421A (zh) 一种用于数据中心的设备健康状态的检测分析方法
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN112990656A (zh) 一种it设备监测数据的健康评价系统及健康评价方法
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN117828539B (zh) 数据智能融合分析系统及方法
CN114185760A (zh) 系统风险评估方法及装置、充电设备运维检测方法
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN112906738A (zh) 一种水质检测及处理方法
CN116126807A (zh) 一种日志分析方法及相关装置
CN116668039A (zh) 基于人工智能的计算机远程登录识别系统及方法
CN113891342B (zh) 基站巡检方法、装置、电子设备及存储介质
CN117370548A (zh) 用户行为风险识别方法、装置、电子设备及介质
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
CN116030955A (zh) 基于物联网的医疗设备状态监测方法及相关装置
CN114266483B (zh) 一种基于物联网的危险废物监管系统
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法
CN113469247B (zh) 网络资产异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination