CN117240518A - 一种网络日志的解析方法、装置、设备及存储介质 - Google Patents
一种网络日志的解析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117240518A CN117240518A CN202311116952.5A CN202311116952A CN117240518A CN 117240518 A CN117240518 A CN 117240518A CN 202311116952 A CN202311116952 A CN 202311116952A CN 117240518 A CN117240518 A CN 117240518A
- Authority
- CN
- China
- Prior art keywords
- log
- model
- analysis
- original
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004458 analytical method Methods 0.000 claims abstract description 242
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 18
- 238000002372 labelling Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请公开一种网络日志的解析方法、装置、设备及存储介质,涉及网络安全技术领域,能够提高日志的解析效率和准确率。具体方案包括:获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种网络日志的解析方法、装置、设备及存储介质。
背景技术
现代软硬件系统通常会在日志中记录有价值的运行时信息,(例如,重要事件和相关变量),同时也包含了诊断网络或系统异常的一些最重要的信息。当网络或系统发生异常,日志消息通常用于更复杂的向下钻取的过程,在这些过程中,运维人员会检查问题的根本原因,并决定他们应该做些什么来从故障中恢复。
其中,日志是通过在源代码中的日志记录语句生成的。在系统运行期间,日志语句将生成原始日志消息,这是一行非结构化文本,其中包含静态文本和日志语句中指定的动态变量(例如“blk_7526945448667194862”)的值。日志消息还包含诸如事件发生时间(例如,“081109210637”)等信息。换句话说,日志记录语句为在运行时生成的日志消息定义了日志事件。日志解析的目标是将静态日志事件、动态变量和头信息(即时间戳、日志级别和日志器名称)。目前的日志解析方法通常使用正则集较多,但伴随越来越多的特殊场景出现,正则集自身的局限性越发凸显,因此需要一种更加高效、可靠的日志解析方法。
发明内容
本申请提供一种网络日志的解析方法、装置、设备及存储介质,能够提高日志的解析效率和准确率。
为达到上述目的,本申请采用如下技术方案:
本申请实施例第一方面,提供了一种网络日志的解析方法,该方法包括:
获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。
在一种可能的实现方式中,所述获取样本集包括:
依次获取原始日志,对各所述原始日志进行正则解析;
若对所述原始日志进行正则解析成功,则根据解析结果对所述原始日志进行标注,得到原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
在一种可能的实现方式中,所述对所述原始日志进行正则解析之后,所述方法还包括:
若对所述原始日志进行正则解析失败,则将所述原始日志输入至所述当前日志解析模型中,利用所述当前日志解析模型对所述原始日志进行解析;
若利用所述当前日志解析模型对所述原始日志解析成功,则得到所述原始日志的解析结果。
在一种可能的实现方式中,所述利用所述当前日志解析模型对所述第一原始日志进行解析之后,所述方法还包括:
若利用所述当前日志解析模型对所述原始日志解析失败,则按照预设的解析规则对所述原始日志进行解析,并根据解析结果,对所述原始日志进行标注,得到所述原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
在一种可能的实现方式中,所述获取当前周期的样本数据之后,所述方法还包括:
对所述样本数据进行去重处理,得到处理后的目标样本数据。
在一种可能的实现方式中,所述预设条件包括:
所述目标样本数据中的新增数据量大于预设新增数据量、所述目标样本数据中的新增数据的增长率大于预设增长率、调用时长大于预设时长或解析次数大于预设的解析次数;其中,所述调用时长为距离上一次获取所述初始日志解析模型的时长,所述解析次数为所述当前周期按照预设的解析规则解析原始日志的次数。
在一种可能的实现方式中,所述获取当前周期的样本数据之前,方法还包括:
获取第一周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的第一更新模型;
获取第二周期的样本数据,在所述预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于所述预设阈值,则得到所述初始日志解析模型的第二更新模型;
将所述第一更新模型与所述第二更新模型进行融合,得到第一融合模型,并在进入下一周期时,将所述第一融合模型作为所述上一周期的融合模型。
本申请实施例第二方面,提供了一种网络日志的解析装置,该装置包括:
获取模块,用于获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
训练模块,用于在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
处理模块,用于将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。
本申请实施例第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现本申请实施例第一方面中的网络日志的解析方法。
本申请实施例第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面中所述的网络日志的解析方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的网络日志的解析方法,获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。采用模型融合方式,日志解析模型的泛化能力不断增强,可以快速提高解析效率和准确率。
附图说明
图1为本申请实施例提供的一种网络日志的解析方法的流程图;
图2为本申请实施例提供的一种网络日志的解析装置的结构图;
图3为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
另外,“基于”或“根据”的使用意味着开放和包容性,因为“基于”或“根据”一个或多个条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出的值。
现代软硬件系统通常会在日志中记录有价值的运行时信息,(例如,重要事件和相关变量),同时也包含了诊断网络或系统异常的一些最重要的信息。当网络或系统发生异常,日志消息通常用于更复杂的向下钻取的过程,在这些过程中,运维人员会检查问题的根本原因,并决定他们应该做些什么来从故障中恢复。此外,伴随安全事件频发的互联网场景,日志的重要意义愈发凸显,无论是事件溯源、日志分析、日志审计,还是故障排除、性能分析、合规性检测、调查取证、系统维护和管理等方面,日志在其中扮演举足轻重的地位。
其中,日志是通过在源代码中的日志记录语句生成的。在系统运行期间,日志语句将生成原始日志消息,这是一行非结构化文本,其中包含静态文本和日志语句中指定的动态变量(例如“blk_7526945448667194862”)的值。日志消息还包含诸如事件发生时间(例如,“081109210637”)等信息。换句话说,日志记录语句为在运行时生成的日志消息定义了日志事件。日志解析的目标是将静态日志事件、动态变量和头信息(即时间戳、日志级别和日志器名称)。目前的日志解析方法通常使用正则集较多,但伴随越来越多的特殊场景出现,正则集自身的局限性越发凸显,因此需要一种更加高效、可靠的日志解析方法。
当前的日志动态解析技术涵盖了多种技术与方法,以便从大量的日志数据中提取有用的信息。常用的日志动态解析方式和其缺点有:正则表达式:可用于从日志中提取特定模式的信息,但对于复杂的日志格式表达式繁琐且难以维护,在大量日志匹配中会影响性能。日志分析工具:针对不同的日志有与其对应的日志分析工具,可以专业的分析日志,但同时每款工具仅能识别、解析一种特定日志,变种日志需要升级续费甚至无法解析。基于模版的解析:如果日志遵循特定的格式,可采用基于模版的解析方法,但同时灵活性较少,需要动态维护模版,在复杂场景中成本巨大甚至不可能实现。自然语言处理:对于包含自然语言的日志,NLP技术可以用于解析和提取关键信息。但在处理多语言或特定领域术语时可能表现不佳,更多情况下较难理解上下文信息,导致结果不准确。机器学习:如模式识别等可用于识别日志中的模式和异常,但常规的无监督学习方法无法实现或效果难以达到要求,监督学习需要足够多的训练数据而在很多场景下甚至无法实现,同时由于模型过于复杂或训练数据不足,容易导致过拟合,模型难以泛化到新数据。
基于上述问题,本申请提供了一种网络日志的解析方法,旨在实现一种在成本可控范围内可动态解析多种日志结构的人工智能模型,相对于传统技术,采用自学习+人工标注(长尾理论,前期需要标注后期极少标注)方式实现,具有一定的准确率且无需大量的训练数据训练模型,模型的准确程度和泛化能力伴随日志解析过程不断增强。
本申请实施例提供了一种网络日志的解析方法,如图1所示,该方法包括以下步骤:
步骤101、获取当前周期的样本数据。
其中,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重。
可选的,样本集的生成过程可以为:依次获取原始日志,对各所述原始日志进行正则解析;若对所述原始日志进行正则解析成功,则根据解析结果对所述原始日志进行标注,得到原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加样本数据中。
具体的,对各原始日志进行正则解析的过程可以为:构建正则集。正则集即专家根据一般日志特定格式编写的正则表达式,用于高效匹配一般的日志。同时,需针对正则集中每条正则标注其匹配的特征与其含义。正则解析。使用正则集解析日志,若解析成功则进行后续的数据自动标注操作,同时返回结果结果;若解析失败,则进行后续的模型解析。自动标注。使用正则解析结果,对日志自动标注(标注到的均是特征和其对应的特定的值),并对标注的每条数据赋予权重值w1。
此外,所述对所述原始日志进行正则解析之后,所述方法还包括:若对所述原始日志进行正则解析失败,则将所述原始日志输入至所述当前日志解析模型中,利用所述当前日志解析模型对所述原始日志进行解析;若利用所述当前日志解析模型对所述原始日志解析成功,则得到所述原始日志的解析结果。
进一步的,所述利用所述当前日志解析模型对所述第一原始日志进行解析之后,所述方法还包括:
若利用所述当前日志解析模型对所述原始日志解析失败,则按照预设的解析规则对所述原始日志进行解析,并根据解析结果,对所述原始日志进行标注,得到所述原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至样本数据中。
其中,根据预设的解析规则对原始日志进行解析可以为人工根据经验对原始日志进行解析。对于正则解析、模型解析均未成功解析的日志,进行人工解析。人工解析需解析出日志类型(日志类型于前期确定)和日志中包括的日志关键特征和特征值。人工解析过程中,对日志数据的特征和特征值进行标注,并设置其权重w2。
可以理解的是,上述过程可以为:在依次获取到原始日志后,首先利用正则解析方式对每个原始日志进行解析,若解析成功,则根据解析结果对该原始日志进行自动标注并设置对应的权重,得到标签信息以及该标签信息的权重,若没有解析成功,则将该原始日志输入至预存储的当前日志解析模型中,对该原始日志进行解析,若解析成功,则得到该原始日志的解析结果,若解析失败,则人工根据经验对原始日志进行解析,并人工对该原始日志进行人工标注并设置对应的权重,得到对应的标签信息,并所述原始日志、所述标签信息和所述权重对应添加至样本集中,用于对当前日志解析模型进行训练,以提高解析的准确性和全面性,并减少对原始日志的标注过程。日志解析部分既完成对日志数据的解析操作,同时形成经标注的增量数据集。此部分需要使用日志解析模型,该模型伴随着日志解析过程不断得到更新,前期模型解析准确度欠佳,模型识别效果呈现长尾趋势增强,后期人工干预情况越来越少。
自动标注后和人工标注设置权重后均会将日志解析结果存储到增量数据集。增量数据集为后续增量模型的构建提供数据集。
步骤102、在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
其中,预设条件为:所述目标样本数据中的新增数据量大于预设新增数据量、所述目标样本数据中的新增数据的增长率大于预设增长率、调用时长大于预设时长或解析次数大于预设的解析次数;其中,所述调用时长为距离上一次获取所述初始日志解析模型的时长,所述解析次数为所述当前周期按照预设的解析规则解析原始日志的次数。
需要说明的是,所述得到所述样本集之后,需要首先对所述样本集中的数据进行去重处理,得到处理后的目标样本集,并对该目标样本集进行判断,在满足预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型。
在实际执行过程中,该目标样本集进行判断的过程可以为:数据集去重。去重规则为:用特定符号替换特征的值,替换之后去除重复项(去除最新项数据)。若所述目标样本集中的新增数据量大于预设新增数据量,则调用预存储的当前日志解析模型;若所述目标样本集中的新增数据的增长率大于预设增长率,则调用预存储的当前日志解析模型;若距离上一次调用预存储的上一日志解析模型的时长大于预设时长,则调用预存储的当前日志解析模型;若当前周期按照预设的解析规则解析第一原始日志的次数大于预设的解析次数,则调用预存储的当前日志解析模型。
步骤103、将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。
可以理解的是,上述步骤101-步骤103的执行过程为循环执行的过程,其中,第一个周期执行过程可以为:
获取第一周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的第一更新模型,利用第一更新模型对第一周期实时获取的日志进行解析。其中,初始日志解析模型可以理解为未经过训练的日志解析模板模型,该模型中的参数是经过初始化或者人为进行设置的。
第二个周期的执行过程可以为:获取第二周期的样本数据,在所述预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于所述预设阈值,则得到所述初始日志解析模型的第二更新模型;将所述第一更新模型与所述第二更新模型进行融合,得到第一融合模型,并在进入下一周期时,将所述第一融合模型作为所述上一周期的融合模型。
第三个周期的执行过程可以为:获取第三周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;将所述更新模型与第一融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的融合模型对当前日志进行解析。
从第三周期之后,一直重复执行上述步骤101-步骤103的过程,这样一直重复执行,日志解析模型的训练过程使用增量日志解析模型不断融合得到,初始状态为空,第一次创建增量日志解析模型合并后形成最初版本的解析模型,后续使用模型融合机制不断的将增量日志解析模型合并入解析模型,从而更新迭代模型。更新日志解析模型部分主要作用是不断更新迭代日志解析模型,使得日志解析模型的准确度、泛化性能更好,识别率更高。
在实际执行过程中,构建模型模版。模型模版即创建增量日志解析模型时可直接引用的模版,使用后即可形成一般的增量日志解析模型创建必要框架(如模型整体架构、模型执行流程等)。(模版只构建一次,为后续创建多次子模型时使用)。
特征提取。由于每次创建的增量日志解析模型其数据集不同,因此创建子模型时特征可能不同,针对不同的特征需要提取针对本样本数据集的特征。特征提取过程自动完成,不需要人工干预。提取原则为:求取增量数据集中所有数据的所有特征集合。
构建增量日志解析模型。增量日志解析模型仅使用当前的增量数据集(即已经去重之后的增量数据集)。执行增量日志解析模型。执行增量日志模型,执行完成之后得到模型和结果。模型融合。增量日志解析模型执行完成之后,可与之前的日志解析模型融合(若为第一个增量日志解析模型则不需要融合),经过进一步封装形成日志解析模型。
日志解析模型。增量日志解析模型和日志解析模型融合后,经过进一步参数化、泛化等操作,即可形成新的日志解析模型。形成最新的日志解析模型之后,模型解析模块使用最新的日志解析模型进行日志解析。(每次更新模型后,及时通知日志解析模块,使用最新的日志解析模型执行解析任务)。
本申请实施例提供的网络日志的解析方法,采用传统正则匹配与模型思维相结合,正则解析负责常规日志解析,日志解析模型负责非常规日志即系,在高效解析的同时,提升了解析泛化能力和准确性。使用正则解析、模型解析和人工解析相结合方式,日志解析的准确度提升效果较明显。采用人工标注和自动标注相结合方式标注参数,有效减少数据标注成本。符合长尾分布,前期人工标注多些,随着模型泛化能力越来越强,后期人工标注工作量显著减少。采用增量模型融合方式,日志解析模型的泛化能力不断增强。采用增量模型模版技术,增量模型和待融合模型同源,合并效率、成本、成功率显著提升。采用人工干预设置权重方式构建增量数据集,模型得到较快收敛,执行更加高效。
如图2所示,本申请实施例还提供了一种网络日志的解析装置,其特征在于,所述装置包括:
获取模块11,用于获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
训练模块12,用于在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
处理模块13,用于将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,并利用所述当前周期的混合模型对下一周期的原始日志进行解析。
在一个实施例中,获取模块11具体用于:
依次获取原始日志,对各所述原始日志进行正则解析;
若对所述原始日志进行正则解析成功,则根据解析结果对所述原始日志进行标注,得到原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
在一个实施例中,获取模块11具体用于:
若对所述原始日志进行正则解析失败,则将所述原始日志输入至所述当前日志解析模型中,利用所述当前日志解析模型对所述原始日志进行解析;
若利用所述当前日志解析模型对所述原始日志解析成功,则得到所述原始日志的解析结果。
在一个实施例中,获取模块11具体用于:
若利用所述当前日志解析模型对所述原始日志解析失败,则按照预设的解析规则对所述原始日志进行解析,并根据解析结果,对所述原始日志进行标注,得到所述原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
在一个实施例中,获取模块11还用于:
对所述样本数据进行去重处理,得到处理后的目标样本数据。
在一个实施例中,所述预设条件包括:
所述目标样本数据中的新增数据量大于预设新增数据量、所述目标样本数据中的新增数据的增长率大于预设增长率、调用时长大于预设时长或解析次数大于预设的解析次数;其中,所述调用时长为距离上一次获取所述初始日志解析模型的时长,所述解析次数为所述当前周期按照预设的解析规则解析原始日志的次数。
在一个实施例中,获取模块11,还用于获取第一周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
训练模块12,还用于在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的第一更新模型;
获取模块11,还用于获取第二周期的样本数据;
训练模块12,还用于在所述预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于所述预设阈值,则得到所述初始日志解析模型的第二更新模型;
处理模块13,还用于将所述第一更新模型与所述第二更新模型进行融合,得到第一融合模型,并在进入下一周期时,将所述第一融合模型作为所述上一周期的融合模型。
本实施例提供的网络日志的解析装置,可以执行上述网络日志的解析方法实施例,其实现原理和技术效果类似,在此不再多加赘述。
关于网络日志的解析装置的具体限定可以参见上文中对于网络日志的解析方法的限定,在此不再赘述。上述网络日志的解析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请实施例提供的网络日志的解析方法的执行主体可以为电子设备,该电子设备可以为计算机设备、终端设备、服务器或服务器集群。本申请实施例对此不作具体限定。
图3为本申请实施例提供的一种电子设备的内部结构示意图。如图3所示,该电子设备包括通过系统总线连接的处理器和存储器。其中,该处理器用于提供计算和控制能力。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例提供的一种网络日志的解析方法的步骤。内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本申请另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本申请实施例的网络日志的解析方法的步骤。
本申请另一实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在网络日志的解析装置上运行时,使得网络日志的解析装置执行上述方法实施例所示的方法流程中网络日志的解析方法执行的各个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种网络日志的解析方法,其特征在于,所述方法包括:
获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,利用所述当前周期的混合模型对下一周期的原始日志进行解析。
2.根据权利要求1所述的方法,其特征在于,所述获取样本集包括:
依次获取原始日志,对各所述原始日志进行正则解析;
若对所述原始日志进行正则解析成功,则根据解析结果对所述原始日志进行标注,得到原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始日志进行正则解析之后,所述方法还包括:
若对所述原始日志进行正则解析失败,则将所述原始日志输入至所述当前日志解析模型中,利用所述当前日志解析模型对所述原始日志进行解析;
若利用所述当前日志解析模型对所述原始日志解析成功,则得到所述原始日志的解析结果。
4.根据权利要求3所述的方法,其特征在于,所述利用所述当前日志解析模型对所述原始日志进行解析之后,所述方法还包括:
若利用所述当前日志解析模型对所述原始日志解析失败,则按照预设的解析规则对所述原始日志进行解析,并根据解析结果,对所述原始日志进行标注,得到所述原始日志对应的标签信息以及所述标签信息对应的权重,并将所述原始日志、所述标签信息和所述权重对应添加至所述样本数据中。
5.根据权利要求2或4所述的方法,其特征在于,所述获取当前周期的样本数据之后,所述方法还包括:
对所述样本数据进行去重处理,得到处理后的目标样本数据。
6.根据权利要求5所述的方法,其特征在于,所述预设条件包括:
所述目标样本数据中的新增数据量大于预设新增数据量、所述目标样本数据中的新增数据的增长率大于预设增长率、调用时长大于预设时长或解析次数大于预设的解析次数;其中,所述调用时长为距离上一次获取所述初始日志解析模型的时长,所述解析次数为所述当前周期按照预设的解析规则解析原始日志的次数。
7.根据权利要求6所述的方法,其特征在于,所述获取当前周期的样本数据之前,方法还包括:
获取第一周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的第一更新模型;
获取第二周期的样本数据,在所述预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于所述预设阈值,则得到所述初始日志解析模型的第二更新模型;
将所述第一更新模型与所述第二更新模型进行融合,得到第一融合模型,并在进入下一周期时,将所述第一融合模型作为所述上一周期的融合模型。
8.一种网络日志的解析装置,其特征在于,所述装置包括:
获取模块,用于获取当前周期的样本数据,所述样本数据包括多个原始日志、各所述原始日志对应的标签信息以及各所述标签信息的权重;
训练模块,用于在预设条件下,获取初始日志解析模型,并利用所述样本数据训练所述初始日志解析模型,直至所述初始日志解析模型的日志解析精度大于预设阈值,则得到所述初始日志解析模型的更新模型;
处理模块,用于将所述更新模型与上一周期的融合模型进行模型融合,得到当前周期的融合模型,利用所述当前周期的混合模型对下一周期的原始日志进行解析。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1至7任一项所述的网络日志的解析方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的网络日志的解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311116952.5A CN117240518A (zh) | 2023-08-31 | 2023-08-31 | 一种网络日志的解析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311116952.5A CN117240518A (zh) | 2023-08-31 | 2023-08-31 | 一种网络日志的解析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117240518A true CN117240518A (zh) | 2023-12-15 |
Family
ID=89097624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311116952.5A Pending CN117240518A (zh) | 2023-08-31 | 2023-08-31 | 一种网络日志的解析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117240518A (zh) |
-
2023
- 2023-08-31 CN CN202311116952.5A patent/CN117240518A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Robust log-based anomaly detection on unstable log data | |
CN110659173B (zh) | 一种运维系统及方法 | |
US20200097389A1 (en) | Error recovery | |
US11790256B2 (en) | Analyzing test result failures using artificial intelligence models | |
EP3251298B1 (en) | Data extraction | |
CN111435366A (zh) | 设备故障诊断方法、装置和电子设备 | |
CN114090406A (zh) | 电力物联网设备行为安全检测方法、系统、设备及存储介质 | |
WO2020140624A1 (zh) | 从日志中提取数据的方法和相关设备 | |
CN114780370A (zh) | 基于日志的数据修正方法、装置、电子设备及存储介质 | |
CN116346456A (zh) | 业务逻辑漏洞攻击检测模型训练方法及装置 | |
CN116361147A (zh) | 测试用例根因定位方法及其装置、设备、介质、产品 | |
US20220405184A1 (en) | Method, electronic device, and computer program product for data processing | |
CN117235745B (zh) | 基于深度学习工控漏洞挖掘方法、系统、设备和存储介质 | |
CN116088846A (zh) | 一种持续集成代码格式的处理方法、相关装置及设备 | |
CN112434831A (zh) | 故障排查方法、装置、存储介质及计算机设备 | |
CN111581057A (zh) | 一种通用日志解析方法、终端设备及存储介质 | |
CN115345600B (zh) | 一种rpa流程的生成方法和装置 | |
CN116756021A (zh) | 基于事件分析的故障定位方法、装置、电子设备及介质 | |
CN111352820A (zh) | 一种高性能应用运行状态预测和监控方法、设备和装置 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN117240518A (zh) | 一种网络日志的解析方法、装置、设备及存储介质 | |
CN115271277A (zh) | 电力设备画像构建方法、系统、计算机设备及存储介质 | |
CN114707151A (zh) | 一种基于api调用和网络行为的僵尸软件检测方法 | |
CN112181951B (zh) | 一种异构数据库数据迁移方法、装置及设备 | |
CN111562943B (zh) | 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |