CN109714187A - 基于机器学习的日志分析方法、装置、设备及存储介质 - Google Patents
基于机器学习的日志分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109714187A CN109714187A CN201810947128.7A CN201810947128A CN109714187A CN 109714187 A CN109714187 A CN 109714187A CN 201810947128 A CN201810947128 A CN 201810947128A CN 109714187 A CN109714187 A CN 109714187A
- Authority
- CN
- China
- Prior art keywords
- log
- analysis
- goal systems
- decision tree
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于机器学习的日志分析方法,该方法包括:在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。本发明还提供一种日志分析装置、设备及计算机可读存储介质。本发明通过机器学习的方式构造分析模型,实现了系统日志的智能分析,有效降低了人的工作量和人力成本,提高分析效率和运维效率;而且分析可以在任何时间自动进行,从而可以及时发现目标系统的异常情况以进行告警,保证系统异常可以被及时发现。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于机器学习的日志分析方法、装置、设备及存储介质。
背景技术
目前市面上的系统日志管理工具,一般都是对日志进行集中采集和对日志进行准索引处理,从而为运维人员提供搜索、分析、监控和可视化等功能。但是这些工具没有对采集到的日志进行深度的分析,也就是说在目前的日志管理工具,仍需要通过人工的方式去对日志内容进行解读和分析,从而判断系统是否存在异常,由于该分析过程是人工执行,其效率一般较低,无法及时发现系统的异常。
发明内容
本发明的主要目的在于提供一种基于机器学习的日志分析方法、装置、设备及计算机可读存储介质,旨在提高日志分析的效率。
为实现上述目的,本发明提供一种基于机器学习的日志分析方法,所述日志分析方法包括以下步骤:
在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
可选地,所述通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常的步骤之前,还包括:
获取日志样本集,其中,所述日志样本集的样本数量为N,N≥2;
建立k棵原始决策树,并通过有放回随机抽样的方式从所述日志样本集中进行k×N轮样本抽取,得到所述k棵原始决策树分别一一对应的k个样本子集,其中各样本子集中的样本数量均为N,k≥2;
通过所述各样本子集分别对各自对应的原始决策树进行训练,得到k棵决策树,并根据所述k棵决策树形成随机森林分析模型。
可选地,所述日志样本集的日志样本包括M个事件特征,M≥2,
所述通过所述各样本子集分别对各自对应的原始决策树进行训练的步骤包括:
分别随机确定各样本子集中各训练样本的训练事件特征,其中每个训练样本的训练事件特征数为m,0<m<M;
以所述训练事件特征作为树节点分裂特征,通过所述各样本子集分别对各自对应的原始决策树进行训练。
可选地,所述通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常的步骤包括:
对所述源日志进行关键字匹配,识别出事件特征片段,并将所述事件特征片段转译得到所述源日志的特征组;
将所述特征组分别输入至所述k棵决策树进行异常判断,得到k个决策树结论;
汇总所述k个决策树结论,并根据所述k个决策树结论判断所述目标系统是否存在异常。
可选地,所述若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警的步骤之后,还包括:
根据所述异常类型输出对应的异常解决建议。
可选地,所述若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警的步骤之后,还包括:
在预设分析日志中记录对应的异常事件,所述异常事件包括异常时间、分析时间、异常类型和告警方式。
可选地,所述日志分析方法还包括:
根据所述预设分析日志统计第二时间段的高频异常类型,并根据所述高频异常类型对应的源日志生成对应的高频异常报告。
此外,为实现上述目的,本发明还提供一种基于机器学习的日志分析装置,所述日志分析装置包括:
日志获取模块,用于在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
日志分析模块,用于通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
异常告警模块,用于若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
此外,为实现上述目的,本发明还提供一种基于机器学习的日志分析设备,所述日志分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的日志分析程序,其中所述日志分析程序被所述处理器执行时,实现如上述的基于机器学习的日志分析方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述计算机可读存储介质上存储有日志分析程序,其中所述日志分析程序被处理器执行时,实现如上述的基于机器学习的日志分析方法的步骤。
本发明通过随机森林分析模型对目标系统的日志进行分析,判断目标系统是否出现异常、并在出现异常时进行自动告警,实现了系统日志的智能分析,有效降低了人的工作量,降低了人力成本,提高分析效率和运维效率;而且分析可以在任何时间自动进行,从而可以及时发现目标系统的异常情况以进行告警,保证系统异常可以被及时发现。
附图说明
图1为本发明实施例方案中涉及的基于机器学习的日志分析设备的硬件结构示意图;
图2为本发明基于机器学习的日志分析方法第一实施例的流程示意图;
图3为本发明基于机器学习的日志分析方法第二实施例的流程示意图;
图4为本发明基于机器学习的日志分析方法第三实施例的流程示意图;
图5为本发明基于机器学习的日志分析装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的基于机器学习的日志分析方法主要应用于基于机器学习的日志分析设备,该基于机器学习的日志分析设备可以是个人计算机(personal computer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的基于机器学习的日志分析设备的硬件结构示意图。本发明实施例中,基于机器学习的日志分析设备可以包括处理器1001(例如中央处理器Central Processing Unit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器1005可以是高速随机存取存储器(random access memory,RAM),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种存储介质的存储器1005可以包括操作系统、网络通信模块以及日志分析程序。在图1中,网络通信模块可用于连接数据库,与数据库进行数据通信;而处理器1001可以调用存储器1005中存储的日志分析程序,并执行本发明实施例提供的基于机器学习的日志分析方法。
本发明实施例提供了一种基于机器学习的日志分析方法。
参照图2,图2为本发明基于机器学习的日志分析方法第一实施例的流程示意图。
本实施例中,所述日志分析方法包括以下步骤:
步骤S10,在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
目前市面上的系统日志管理工具,一般都是对日志进行集中采集和对日志进行准索引处理,从而为运维人员提供搜索、分析、监控和可视化等功能。但是这些工具没有对采集到的日志进行深度的分析,也就是说在目前的日志管理工具,仍需要通过人工的方式去对日志内容进行解读和分析,从而判断系统是否存在异常,由于该分析过程是人工执行,其效率一般较低,无法及时发现系统的异常。对此,本实施例中提出了一种基于机器学习的日志分析方法,利用机器学习得到的日志分析模型(工具)对系统日志进行分析,判断系统存在是否异常,实现了日志的智能分析,减少了管理人员的工作量。
本实施例的基于机器学习的日志分析方法是由基于机器学习的日志分析设备实现的,该日志分析设备以分析服务器为例进行说明。分析服务器在接收到日志分析请求时,首先将根据该日志分析请求从目标系统中获取对应的源日志。其中该日志分析请求,可以是由运维人员实时触发,例如是由运维人员远程使用某一运维终端(如个人电脑、笔记本电脑、手机等)向分析服务器发送相关的日志分析请求;也可以是预先在分析服务器中设置好日志分析脚本,该日志分析脚本中包括分析时间,当当前时间处于该分析时间时,自动触发对应的日志分析请求。
进一步的,日志分析的过程一般是周期执行,例如每个10分钟检查一次,因此在获取目标系统的源日志时,可以是获取某一时间段(分析周期)内目标系统记录的源日志,从而减少数据传输量和后续的分析工作量,提高分析的效率。
再进一步的,源日志中往往会记录有目标系统的相关业务数据,这些业务数据可能会涉及到商业隐私,因此目标系统对源日志的获取通常会设置有一定的权限限制。对此,分析服务器在获取目标系统的源日志前,需要先得到相关的源日志获取授权,然后根据该源日志获取授权向目标系统发送对应的权限标识;目标系统则根据该权限标识对分析服务器的获取权限进行验证,当分析服务器的获取权限通过验证时,目标系统才会向分析服务器返回对应的源日志,从而保证了源日志的安全性。
步骤S20,通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
本实施例中,分析服务器在得到目标系统的源日志时,即可对源日志进行分析,以根据分析结果判断目标系统是否存在异常。其中,每条源日志记录中往往会记录有两个以上(此处“以上”包括本数,下同)不同的事件特征,例如包括客户端ip、服务端ip、请求码、请求方法、请求url、useragent代理、日期、时间等,对于这些事件特征与系统异常与否的关系一般较为复杂,若通过以专家经验建立的静态规则引擎对源日志进行分析,得到的分析结果容易受到主观因素的影响,影响分析的准确性,也就无法准确判断目标系统中是否存在异常。对此,本实施例中可通过预设的随机森林分析模型对源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常,其中该随机森林分析模型是采用机器学习的方式、基于随机森林算法构建得到。
随机森林算法是用随机的方式建立一个森林,森林中由若干棵决策树组成,随机森林的每一棵决策树之间进行判断时可认为是相互独立的。在得到森林之后,当有一个新的输入进入的时候,就让森林中的每一棵决策树分别进行分类(或判断),看看这个输入应该属于哪一类,然后看看哪一类被选择最多,就预测这个输入属于那一类。随机森林算法比较适合做多分类问题,当使用随机森林算法构建随机森林分析模型时,若判断目标系统存在异常,还可以进行确定其异常的类型,即实现多分;且其对训练数据具有一定容错能力,是一种有效地估计缺失数据的一种方法,当数据集中有大比例的数据缺失时仍然可以保持精度不会严重下降,也就是说,当使用随机森林算法构建随机森林分析模型时,即使用以训练模型的日志样本中存在一些事件特征缺失,也可以保证其模型精度;此外,随机森林算法还能够有效地处理大的输入集,适合本实施例中的日志分析场景。
本实施例中,在训练前,首先需要获得大量历史日志信息作为日志样本集,用以进行模型训练,该日志样本集的样本数量记为N(即有N个日志样本或N条日志记录、N≥2)。由于随机森林算法属于监督学习的一种,因此在这些日志样本(历史日志信息)中,每一个日志样本应该包括分析结果项(或称为目标列、字段等),如是否异常;如果异常,则该日志样本的分析结果项还包括有异常表现形式、原因、用户行为等;当然,在实际情况中目标系统可能会存在多种异常情况,对于不同的异常情况,其影响可能是不同的,对此为了方便运维人员了解异常情况的严重性,还可以对异常情况进行分级,例如异常等级包括emerg(系统不可用)、alert(必须马上采取行动)、crit(关键)、err(错误)、warning(警告)、notice(普通但重要)、info(有用)、debug(调试)八个等级,对于异常的日志样本还包括有对应的异常等级。
在得到日志样本集时,分析服务器将会建立k棵(k≥2)原始决策树,然后为这些原始决策树准备训练样本。对于每一棵决策树,分析服务器将以有放回随机抽样的方式从日志样本集中进行N轮抽样,得到样本数量为N的样本子集(即有放回的随机行采样);由于共建立了k棵原始决策树,因此分析服务器一共要进行k×N轮的样本抽取。其中,由于抽样是“有放回”的,因此各样本子集中,可能有重复的样本,这样使得在训练的时候,每一棵决策树的输入样本都不是全部的样本,使得相对不容易出现过拟合over-fitting;此外,“有放回”还可以保证每棵决策树训练的关联性,如果不是有放回的抽样,那么每棵决策树的训练样本都是不同的、没有交集的,这样每棵决策树都是“有偏的”,每棵决策树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵决策树(弱分类器)的投票表决,这种表决应该是“求同”,因此使用完全不同的训练集来训练每棵决策树会对最终分类结果的准确产生不利的影响。
在得到N棵原始决策树各自对应的样本子集时,即可通过这些样本子集分别对各自对应的原始决策树进行训练,从而得到k棵决策树,这k棵决策树即形成了一个随机森林分析模型。
进一步的,在通过各样本子集分别对各自对应的原始决策树进行训练时,为了避免过拟合,还可以对训练样本的事件特征进行随机采样(列随机采样)。具体的,每个日志样本中包括有M个事件特征(M≥2),例如包括客户端ip、服务端ip、请求码、请求方法、请求url、useragent代理、日期、时间等,在进行训练时,对于每一个日志样本,所使用的到训练事件特征可以不同的;分析服务器将分别随机确定各样本子集中各训练样本的训练事件特征,其中每个训练样本的训练事件特征数为m,0<m<M(例如m可以为M的平方根),例如,对于上述的日志样本,具有客户端ip、服务端ip、请求码、请求方法、请求url、useragent代理、日期、时间共8个事件特征,而在进行训练时,每个训练样本,只使用其中的3个,且每个训练样本所用的训练事件特征可以是不同的;分析服务器会将这些训练事件特征作为树节点分裂特征,在原始决策树进行树节点分裂时,是根据这些训练时间特征进行分裂。由于随机森林是由多棵决策树组成,因此对于整个随机森林模型的构建,可以用其中一棵决策树的训练来进行说明。在得到样本子集后,将从训练样本的M个事件特征中随机选择m个事件特征作为各训练样本的训练事件特征;然后对采样后的训练样本使用完全分裂的方式训练决策树,首先从m个训练事件特征中取出一个训练事件特征作为分类标准(可以是采用信息增益的方式来选择分裂属性、当然也可以是随机),分裂为二分或多分的一级分支;对于一级分支,再从m-1个训练事件特征中取出一个训练事件特征作为子分类标准,将一级分支再分裂二分或多分的二级分支;如此,直至无法再进行分裂为止(训练事件特征全部选择过),即建立了一颗决策树;值得说明的是,本实施例决策树建立过程中并没有进行剪枝,这是由于本实施例的决策树属于随机森林中的一棵树,其训练样本已经是通过随机选择的方式获得(包括行采样的随机和列采样的随机),不用剪枝也可避免过拟合。通过这样的方式建立大量的决策树,就构成随机森林分析模型。
当得到随机森林分析模型时,即可通过该随机森林分析模型对源日志进行分析。具体的,分析服务器将会遍历获得的源日志,对其进行关键字匹配,识别到事件特征片段,如记录了客户端ip、服务端ip、请求码等内容的事件特征片段;然后分析服务器根据这些事件特征片段转译得到对应的特征组,例如{客户端ip(xxx),服务端ip(yyy),请求码(zzz),...};在得到特征组,即可将该特征组分别输入至训练好的k棵决策树中进行分析,根据训练得到的分类逻辑得到决策树结论;其中,每棵决策树的分析过程可以看作是相对独立的;在每棵决策树都分析和分类完成时,即得到了k个决策树结论。分析服务器会对这k个决策树结论进行汇总,比较哪一类的结论被选择最多,就得出该源日志为属于哪一类的结论;例如,随机森林分析模型中共有9棵决策树,对于分析的源日志,有2棵是得出了“正常”的结论,有7棵是得出了“异常”的结论,则随机森林分析模型最后会得出“目标系统异常”的结论;进一步的,得出“异常”结论的7棵决策树中,有5棵是给出了“emerg(系统不可用)”的异常等级,有2棵是给出了“warning(警告)”的异常等级,则随机森林分析模型对异常情况的分级为“emerg(系统不可用)”。
步骤S30,若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
本实施例中,在确定目标系统存在异常时,分析服务器将进行告警操作,例如向指定告警邮箱发送告警邮件,向指定微信号发送告警信息,向指定手机发送告警短信等。
而在实际中,由于目标系统异常类型较多,若对所有的异常都采用相同的告警方式,则会对使得告警信息处于一种无序的状态,容易对运维工程师造成视觉疲劳,或是错过关键、重要的告警。对此,分析服务器还可根据异常类型的不同采用不同的告警方式进行告警。具体的,巡检服务器在确定目标服务器异常时,还会进一步根据源日志确定异常的类型(该异常的类型可以通过根据异常发生时间、业务对象、异常原因和异常等级等维度进行区分);然后根据异常类型采用对应的告警方式进行告警。其中,该异常类型的区分,也可以是通过随机森林分析模型实现,即在日志样本集的训练样本中,对于异常的训练样本,包括有异常类型项,在对决策树进行训练时,若决策树得出“异常”的结论,还将给出对应的异常类型。当然,该异常类型的区分,也可以是直接对源日志进行关键字匹配的方式进行;例如,若是根据异常发生时间区分异常类型,则可以是对时间关键字进行匹配,并根据时间值确定其异常类型;又例如,若是根据业务对象区分异常类型,则可以是对客户端ip和/或服务端ip进行匹配,并根据实际ip值确定其异常类型。
本实施例中,在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。通过以上方式,本实施例通过随机森林分析模型对目标系统的日志进行分析,判断目标系统是否出现异常、并在出现异常时进行自动告警,实现了系统日志的智能分析,有效降低了人的工作量,降低了人力成本,提高分析效率和运维效率;而且分析可以在任何时间自动进行,从而可以及时发现目标系统的异常情况以进行告警,保证系统异常可以被及时发现。
参照图3,图3为本发明基于机器学习的日志分析方法第二实施例的流程示意图。
基于上述图2所述实施例,本实施例中,步骤S30之后还包括:
步骤S40,根据所述异常类型输出对应的异常解决建议。
本实施例中,分析服务器在根据源日志确定目标系统存在异常情况、并进行告警的同时,还可以根据异常类型给出相应的异常原因和处理建议,以方便管理人员进行异常排除处理。具体的,在训练和构建随机森林分析模型时,对于日志样本集的训练样本,其包括异常类型项,在对决策树进行训练时,若决策树得出“异常”的结论,还将给出对应的异常类型;此外,该异常类型项还包括异常表现形式、原因、用户行为、异常解决方案等;如此,通过该训练样本训练得到的随机森林分析模型,其对源日志确定目标系统存在异常情况后,还将分析其异常类型、并给出相应的异常原因和异常解决建议。
当然,也可以是预先设置对应的异常解决规则库,该异常解决规则库中包括有各种异常类型对应的解决规则,即选择通过成本相对更低的规则引擎的方式实现异常解决建议的输出。分析服务器在确定了目标系统存在异常、并确定其异常类型后,可查询该异常解决规则库,并根据异常类型获取到对应的解决规则,再根据该解决规则输出对应的异常解决建议。
参照图4,图4为本发明基于机器学习的日志分析方法第三实施例的流程示意图。
基于上述图2或图3所述实施例,本实施例中,步骤S30之后还包括
步骤S50,在预设分析日志中记录对应的异常事件,所述异常事件包括异常时间、分析时间、异常类型和告警方式。
本实施例中,为了方便运维人员了解日志分析情况,分析服务器在确定目标系统存在异常并进行了告警之后,还会对异常情况进行记录。具体的,分析服务器中预先设置有分析日志,用以对异常事件进行记录;值得说明的是,该分析日志并不等同于源日志,源日志是由目标系统在业务过程中所产生的业务记录,而该分析日志则是由分析服务器在日志分析过程中所记录的分析情况。当分析服务器在确定目标系统存在异常并进行了告警之后,将会在预设分析日志中记录对应的异常事件,该异常事件可以包括异常发生的时间(目标系统进行对应异常业务的时间、可根据源日志确定)、分析时间(分析服务器分析该源日志的时间)、异常类型、告警方式、异常原因、异常解决建议等内容。
进一步的,为了方便运维人员从宏观上了解目标系统的异常情况,分析服务器还可以根据预设分析日志统计出一定时间段内的所发生异常类型次数,例如统计4月份“参数格式化异常”的异常次数、“批量插入客户信息出错”的业务端分布(即由哪些业务端出现了该错误)等。而在得到这些宏观的统计分析结果时,分析服务器还可以给出相关的报告,以供运维人员查看;例如,分析服务器可以根据预设分析日志统计某一时间段的高频异常类型(即确定该时间段内目标系统经常会出现哪类异常),然后获取到该高频异常类型的源日志,并生成对应的高频异常报告供运维人员查看,运维人员可根据该报告获取高频异常报告,并根据该报告对业务流程或是目标系统进行优化,保证业务的正常进行。
此外,本发明实施例还提供一种基于机器学习的日志分析装置。
参照图5,图5为本发明基于机器学习的日志分析装置第一实施例的功能模块示意图。
本实施例中,所述日志分析装置包括:
日志获取模块10,用于在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
日志分析模块20,用于通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
异常告警模块30,用于若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
其中,上述日志分析装置的各虚拟功能模块存储于图1所示日志分析设备的存储器1005中,用于实现日志分析程序的所有功能;各模块被处理器1001执行时,可实现系统日志的智能分析,并在确定目标系统异常时自动告警的功能。
进一步的,所述日志分析装置包括:
样本获取模块,用于获取日志样本集,其中,所述日志样本集的样本数量为N,N≥2;
样本抽样模块,用于建立k棵原始决策树,并通过有放回随机抽样的方式从所述日志样本集中进行k×N轮样本抽取,得到所述k棵原始决策树分别一一对应的k个样本子集,其中各样本子集中的样本数量均为N,k≥2;
模型训练模块,用于通过所述各样本子集分别对各自对应的原始决策树进行训练,得到k棵决策树,并根据所述k棵决策树形成随机森林分析模型。
进一步的,所述日志样本集的日志样本包括M个事件特征,M≥2,所述模型训练模块包括:
特征确定单元,用于分别随机确定各样本子集中各训练样本的训练事件特征,其中每个训练样本的训练事件特征数为m,0<m<M;
决策树训练单元,用于以所述训练事件特征作为树节点分裂特征,通过所述各样本子集分别对各自对应的原始决策树进行训练。
进一步的,日志分析模块20包括:
特征组获得单元,用于对所述源日志进行关键字匹配,识别出事件特征片段,并将所述事件特征片段转译获得所述源日志的特征组;
特征组输入单元,用于将所述特征组分别输入至所述k棵决策树进行异常判断,得到k个决策树结论;
结论汇总单元,用于汇总所述k个决策树结论,并根据所述k个决策树结论判断所述目标系统是否存在异常。
进一步的,所述日志分析装置还包括:
建议输出模块,用于根据所述异常类型输出对应的异常解决建议。
进一步的,所述日志分析装置还包括:
事件记录模块,用于在预设分析日志中记录对应的异常事件,所述异常事件包括异常时间、分析时间、异常类型和告警方式。
进一步的,所述日志分析装置还包括:
报告生成模块,用于根据所述预设分析日志统计第二时间段的高频异常类型,并根据所述高频异常类型对应的源日志生成对应的高频异常报告。
其中,上述基于机器学习的日志分析装置中各个模块的功能实现与上述基于机器学习的日志分析方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种存储介质。
本发明存储介质上存储有日志分析程序,其中所述日志分析程序被处理器执行时,实现如上述的基于机器学习的日志分析方法的步骤。
其中,日志分析程序被执行时所实现的方法可参照本发明基于机器学习的日志分析方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于机器学习的日志分析方法,其特征在于,所述日志分析方法包括以下步骤:
在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
2.如权利要求1所述的日志分析方法,其特征在于,所述通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常的步骤之前,还包括:
获取日志样本集,其中,所述日志样本集的样本数量为N,N≥2;
建立k棵原始决策树,并通过有放回随机抽样的方式从所述日志样本集中进行k×N轮样本抽取,得到所述k棵原始决策树分别一一对应的k个样本子集,其中各样本子集中的样本数量均为N,k≥2;
通过所述各样本子集分别对各自对应的原始决策树进行训练,得到k棵决策树,并根据所述k棵决策树形成随机森林分析模型。
3.如权利要求2所述的日志分析方法,其特征在于,所述日志样本集的日志样本包括M个事件特征,M≥2,
所述通过所述各样本子集分别对各自对应的原始决策树进行训练的步骤包括:
分别随机确定各样本子集中各训练样本的训练事件特征,其中每个训练样本的训练事件特征数为m,0<m<M;
以所述训练事件特征作为树节点分裂特征,通过所述各样本子集分别对各自对应的原始决策树进行训练。
4.如权利要求2所述的日志分析方法,其特征在于,所述通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常的步骤包括:
对所述源日志进行关键字匹配,识别出事件特征片段,并将所述事件特征片段转译得到所述源日志的特征组;
将所述特征组分别输入至所述k棵决策树进行异常判断,得到k个决策树结论;
汇总所述k个决策树结论,并根据所述k个决策树结论判断所述目标系统是否存在异常。
5.如权利要求1所述的日志分析方法,其特征在于,所述若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警的步骤之后,还包括:
根据所述异常类型输出对应的异常解决建议。
6.如权利要求1至5中任一项所述的日志分析方法,其特征在于,所述若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警的步骤之后,还包括:
在预设分析日志中记录对应的异常事件,所述异常事件包括异常时间、分析时间、异常类型和告警方式。
7.如权利要求6中所述的日志分析方法,其特征在于,所述日志分析方法还包括:
根据所述预设分析日志统计第二时间段的高频异常类型,并根据所述高频异常类型对应的源日志生成对应的高频异常报告。
8.一种基于机器学习的日志分析装置,其特征在于,所述日志分析装置包括:
日志获取模块,用于在接收到日志分析请求时,根据所述日志分析请求从目标系统中获取第一时间段的源日志;
日志分析模块,用于通过预设的随机森林分析模型对所述源日志进行分析,以根据分析结果判断所述目标系统中是否存在异常;
异常告警模块,用于若所述目标系统存在异常,则根据所述源日志确定异常类型,并根据所述异常类型进行告警。
9.一种基于机器学习的日志分析设备,其特征在于,所述日志分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的日志分析程序,其中所述日志分析程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于机器学习的日志分析方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有日志分析程序,其中所述日志分析程序被处理器执行时,实现如权利要求1至7中任一项所述的基于机器学习的日志分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947128.7A CN109714187A (zh) | 2018-08-17 | 2018-08-17 | 基于机器学习的日志分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947128.7A CN109714187A (zh) | 2018-08-17 | 2018-08-17 | 基于机器学习的日志分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109714187A true CN109714187A (zh) | 2019-05-03 |
Family
ID=66253650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810947128.7A Withdrawn CN109714187A (zh) | 2018-08-17 | 2018-08-17 | 基于机器学习的日志分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109714187A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110855625A (zh) * | 2019-10-17 | 2020-02-28 | 新华三信息安全技术有限公司 | 基于流式处理的异常分析方法、装置及存储介质 |
CN110958222A (zh) * | 2019-10-31 | 2020-04-03 | 苏州浪潮智能科技有限公司 | 基于孤立森林算法的服务器日志异常检测方法及系统 |
CN111131248A (zh) * | 2019-12-24 | 2020-05-08 | 广东电科院能源技术有限责任公司 | 一种网站应用安全缺陷检测模型建模方法及缺陷检测方法 |
CN111177095A (zh) * | 2019-12-10 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 日志分析方法、装置、计算机设备及存储介质 |
CN111192170A (zh) * | 2019-12-25 | 2020-05-22 | 平安国际智慧城市科技股份有限公司 | 题目推送方法、装置、设备和计算机可读存储介质 |
CN111221702A (zh) * | 2019-11-18 | 2020-06-02 | 上海维谛信息科技有限公司 | 基于日志分析的异常处理方法、系统、终端及介质 |
CN111274107A (zh) * | 2020-01-15 | 2020-06-12 | 酷得少年(天津)文化传播有限公司 | 一种用于直播的故障修复系统及方法 |
CN111522704A (zh) * | 2020-03-04 | 2020-08-11 | 平安科技(深圳)有限公司 | 告警信息处理方法、装置、计算机装置及存储介质 |
CN111565171A (zh) * | 2020-03-31 | 2020-08-21 | 北京三快在线科技有限公司 | 异常数据的检测方法、装置、电子设备及存储介质 |
CN111639277A (zh) * | 2020-05-22 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 机器学习样本集的自动化提取方法和计算机可读存储介质 |
CN111796997A (zh) * | 2020-07-02 | 2020-10-20 | 北京字节跳动网络技术有限公司 | 日志信息处理方法、装置和电子设备 |
CN111913865A (zh) * | 2020-08-18 | 2020-11-10 | 中科方德软件有限公司 | 一种Linux操作系统日志自动分析方法 |
CN111949994A (zh) * | 2020-08-19 | 2020-11-17 | 北京紫光展锐通信技术有限公司 | 漏洞分析方法及系统、电子设备及存储介质 |
CN111984516A (zh) * | 2020-09-02 | 2020-11-24 | 大连大学 | 基于sgse-ecc的日志异常检测系统 |
CN112363904A (zh) * | 2020-11-30 | 2021-02-12 | 歌尔科技有限公司 | log数据分析定位方法、装置及计算机可读存储介质 |
CN112527459A (zh) * | 2020-12-16 | 2021-03-19 | 新浪网技术(中国)有限公司 | 一种基于Kubernetes集群的日志分析方法及装置 |
CN113031991A (zh) * | 2021-04-13 | 2021-06-25 | 南京大学 | 一种嵌入式系统的远程自适应升级方法及其装置 |
CN113239006A (zh) * | 2021-05-12 | 2021-08-10 | 中国联合网络通信集团有限公司 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
CN113515434A (zh) * | 2021-01-04 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 异常分类方法、装置、异常分类设备及存储介质 |
CN113535667A (zh) * | 2020-04-20 | 2021-10-22 | 烽火通信科技股份有限公司 | 一种系统日志自动分析方法、装置和系统 |
CN113792019A (zh) * | 2021-08-03 | 2021-12-14 | RealMe重庆移动通信有限公司 | 一种分析方法、电子设备及计算机存储介质 |
CN113835962A (zh) * | 2021-09-24 | 2021-12-24 | 超越科技股份有限公司 | 一种服务器故障检测方法、装置、计算机设备及存储介质 |
CN113887749A (zh) * | 2021-08-23 | 2022-01-04 | 国网江苏省电力有限公司信息通信分公司 | 基于云边协同的电力物联网多维度监控处置方法、设备及平台 |
CN115794479A (zh) * | 2023-02-10 | 2023-03-14 | 深圳依时货拉拉科技有限公司 | 日志数据处理方法、装置、电子设备及存储介质 |
-
2018
- 2018-08-17 CN CN201810947128.7A patent/CN109714187A/zh not_active Withdrawn
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110855625A (zh) * | 2019-10-17 | 2020-02-28 | 新华三信息安全技术有限公司 | 基于流式处理的异常分析方法、装置及存储介质 |
CN110958222A (zh) * | 2019-10-31 | 2020-04-03 | 苏州浪潮智能科技有限公司 | 基于孤立森林算法的服务器日志异常检测方法及系统 |
CN111221702B (zh) * | 2019-11-18 | 2024-02-27 | 上海维谛信息科技有限公司 | 基于日志分析的异常处理方法、系统、终端及介质 |
CN111221702A (zh) * | 2019-11-18 | 2020-06-02 | 上海维谛信息科技有限公司 | 基于日志分析的异常处理方法、系统、终端及介质 |
CN111177095A (zh) * | 2019-12-10 | 2020-05-19 | 中移(杭州)信息技术有限公司 | 日志分析方法、装置、计算机设备及存储介质 |
CN111177095B (zh) * | 2019-12-10 | 2023-10-27 | 中移(杭州)信息技术有限公司 | 日志分析方法、装置、计算机设备及存储介质 |
CN111131248A (zh) * | 2019-12-24 | 2020-05-08 | 广东电科院能源技术有限责任公司 | 一种网站应用安全缺陷检测模型建模方法及缺陷检测方法 |
CN111192170B (zh) * | 2019-12-25 | 2023-05-30 | 平安国际智慧城市科技股份有限公司 | 题目推送方法、装置、设备和计算机可读存储介质 |
CN111192170A (zh) * | 2019-12-25 | 2020-05-22 | 平安国际智慧城市科技股份有限公司 | 题目推送方法、装置、设备和计算机可读存储介质 |
CN111274107A (zh) * | 2020-01-15 | 2020-06-12 | 酷得少年(天津)文化传播有限公司 | 一种用于直播的故障修复系统及方法 |
CN111522704A (zh) * | 2020-03-04 | 2020-08-11 | 平安科技(深圳)有限公司 | 告警信息处理方法、装置、计算机装置及存储介质 |
CN111565171A (zh) * | 2020-03-31 | 2020-08-21 | 北京三快在线科技有限公司 | 异常数据的检测方法、装置、电子设备及存储介质 |
CN113535667A (zh) * | 2020-04-20 | 2021-10-22 | 烽火通信科技股份有限公司 | 一种系统日志自动分析方法、装置和系统 |
CN111639277A (zh) * | 2020-05-22 | 2020-09-08 | 杭州安恒信息技术股份有限公司 | 机器学习样本集的自动化提取方法和计算机可读存储介质 |
CN111796997A (zh) * | 2020-07-02 | 2020-10-20 | 北京字节跳动网络技术有限公司 | 日志信息处理方法、装置和电子设备 |
CN111913865A (zh) * | 2020-08-18 | 2020-11-10 | 中科方德软件有限公司 | 一种Linux操作系统日志自动分析方法 |
CN111949994A (zh) * | 2020-08-19 | 2020-11-17 | 北京紫光展锐通信技术有限公司 | 漏洞分析方法及系统、电子设备及存储介质 |
CN111984516B (zh) * | 2020-09-02 | 2024-01-05 | 大连大学 | 基于sgse-ecc的日志异常检测系统 |
CN111984516A (zh) * | 2020-09-02 | 2020-11-24 | 大连大学 | 基于sgse-ecc的日志异常检测系统 |
CN112363904A (zh) * | 2020-11-30 | 2021-02-12 | 歌尔科技有限公司 | log数据分析定位方法、装置及计算机可读存储介质 |
CN112363904B (zh) * | 2020-11-30 | 2022-11-22 | 歌尔科技有限公司 | log数据分析定位方法、装置及计算机可读存储介质 |
CN112527459A (zh) * | 2020-12-16 | 2021-03-19 | 新浪网技术(中国)有限公司 | 一种基于Kubernetes集群的日志分析方法及装置 |
CN112527459B (zh) * | 2020-12-16 | 2024-03-26 | 新浪技术(中国)有限公司 | 一种基于Kubernetes集群的日志分析方法及装置 |
CN113515434B (zh) * | 2021-01-04 | 2024-09-10 | 腾讯科技(深圳)有限公司 | 异常分类方法、装置、异常分类设备及存储介质 |
CN113515434A (zh) * | 2021-01-04 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 异常分类方法、装置、异常分类设备及存储介质 |
CN113031991A (zh) * | 2021-04-13 | 2021-06-25 | 南京大学 | 一种嵌入式系统的远程自适应升级方法及其装置 |
CN113031991B (zh) * | 2021-04-13 | 2023-11-17 | 南京大学 | 一种嵌入式系统的远程自适应升级方法及其装置 |
CN113239006A (zh) * | 2021-05-12 | 2021-08-10 | 中国联合网络通信集团有限公司 | 日志检测模型的生成方法和装置、日志检测方法和装置 |
CN113792019B (zh) * | 2021-08-03 | 2023-08-18 | RealMe重庆移动通信有限公司 | 一种分析方法、电子设备及计算机存储介质 |
CN113792019A (zh) * | 2021-08-03 | 2021-12-14 | RealMe重庆移动通信有限公司 | 一种分析方法、电子设备及计算机存储介质 |
CN113887749A (zh) * | 2021-08-23 | 2022-01-04 | 国网江苏省电力有限公司信息通信分公司 | 基于云边协同的电力物联网多维度监控处置方法、设备及平台 |
CN113835962A (zh) * | 2021-09-24 | 2021-12-24 | 超越科技股份有限公司 | 一种服务器故障检测方法、装置、计算机设备及存储介质 |
CN115794479A (zh) * | 2023-02-10 | 2023-03-14 | 深圳依时货拉拉科技有限公司 | 日志数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109714187A (zh) | 基于机器学习的日志分析方法、装置、设备及存储介质 | |
Myers et al. | Anomaly detection for industrial control systems using process mining | |
CN109587125B (zh) | 一种网络安全大数据分析方法、系统及相关装置 | |
CN110399925A (zh) | 账号的风险识别方法、装置及存储介质 | |
US20080148398A1 (en) | System and Method for Definition and Automated Analysis of Computer Security Threat Models | |
CN116662989B (zh) | 一种安全数据解析方法及系统 | |
Swinnen et al. | A process deviation analysis–a case study | |
CN109002391A (zh) | 自动检测嵌入式软件接口测试数据的方法 | |
CN111858251B (zh) | 一种基于大数据计算技术的数据安全审计方法及系统 | |
CN113472787A (zh) | 一种告警信息处理方法、装置、设备及存储介质 | |
CN110677430A (zh) | 一种基于网络安全设备日志数据的用户风险度评估方法和系统 | |
CN113794276A (zh) | 一种基于人工智能的配电网终端安全行为监测系统及方法 | |
Martino et al. | Temporal outlier analysis of online civil trial cases based on graph and process mining techniques | |
CN112966014A (zh) | 查找目标对象的方法和装置 | |
CN113918526A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
US7617313B1 (en) | Metric transport and database load | |
CN108270637B (zh) | 一种网站质量多层钻取系统和方法 | |
CN110365714A (zh) | 主机入侵检测方法、装置、设备及计算机存储介质 | |
CN118229101A (zh) | 需求任务的投产方法及装置、存储介质、电子装置 | |
CN115706669A (zh) | 网络安全态势预测方法及系统 | |
CN110708296B (zh) | 一种基于长时间行为分析的vpn账号失陷智能检测模型 | |
KR20060058186A (ko) | 정보기술 위험관리시스템 및 그 방법 | |
CN115509854A (zh) | 一种巡检处理方法、巡检服务器及系统 | |
CN113946822A (zh) | 安全风险监控方法、系统、计算机设备和存储介质 | |
CN113190805B (zh) | 一种代码资产管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190503 |