CN114598597B - 多源日志解析方法、装置、计算机设备及介质 - Google Patents

多源日志解析方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN114598597B
CN114598597B CN202210178046.7A CN202210178046A CN114598597B CN 114598597 B CN114598597 B CN 114598597B CN 202210178046 A CN202210178046 A CN 202210178046A CN 114598597 B CN114598597 B CN 114598597B
Authority
CN
China
Prior art keywords
log
files
file
source
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210178046.7A
Other languages
English (en)
Other versions
CN114598597A (zh
Inventor
张强
王承先
张�杰
龚亮华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengtai Technology Beijing Co ltd
Original Assignee
Fengtai Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fengtai Technology Beijing Co ltd filed Critical Fengtai Technology Beijing Co ltd
Priority to CN202210178046.7A priority Critical patent/CN114598597B/zh
Publication of CN114598597A publication Critical patent/CN114598597A/zh
Application granted granted Critical
Publication of CN114598597B publication Critical patent/CN114598597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/6245Modifications to standard FIFO or LIFO

Abstract

本申请适用于网络靶场技术领域,提供了一种多源日志解析方法、多源日志解析装置、计算机设备及介质,其中,一种多源日志解析方法,按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对日志文件进行来源设备查询,得到日志文件的设备归属信息,如果根据设备归属信息确定日志文件来源于新增设备,则为日志文件确定出候选产品类别,按照候选产品类别对应的日志解析策略,对日志文件进行日志解析操作,得到日志解析文件,实现了在对多源日志文件进行解析的过程中,按照候选产品类别对应的日志解析策略进行日志解析,避免采用单一的日志解析策略,对来源于不同设备的不同日志文件进行解析,提高了对日志文件解析的效率。

Description

多源日志解析方法、装置、计算机设备及介质
技术领域
本申请属于日志解析技术领域,尤其涉及一种多源日志解析方法、多源日志解析装置、计算机设备及计算机可读存储介质。
背景技术
随着物联网技术的发展,不同的设备被配置在同一个网络环境中。由于各种设备的日志记录了设备运行状态,同时记录了用户执行的操作等信息,因此可以将多种设备的日志文件进行汇总分析,便于在设备出现故障时,提供数据支持。
然而,由于对来源于不同设备的日志文件集合中,各个日志文件的生成策略不同,日志文本格式也存在较大差异,因此如果采用单一的解析策略对不同设备的日志文件集合进行解析,则容易导致解析出来的日志信息容易出现混乱,且无法被使用。可见,现有的多源日志解析的方案存在对日志文件解析效率较低的问题。
发明内容
有鉴于此,本申请实施例提供了一种多源日志解析方法、多源日志解析装置、计算机设备及计算机可读存储介质,以解决现有的多源日志解析的方案存在对日志文件解析效率较低的问题。
本申请实施例的第一方面提供了一种多源日志解析方法,包括:
按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息;其中,所述日志缓存队列中包括来自不同设备的日志文件;
若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别;
按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
上述方案中,在所述按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息的步骤之前,还包括:
将来自不同设备的日志文件,存储至预设的缓存队列中,得到待排序队列;
按照先进先出的原则,对所述待排序队列进行排序,得到日志缓存队列。
在所述按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息的步骤之后,还包括:
若根据所述设备归属信息确定所述日志文件来源于已有设备,则根据所述已有设备对应产品类别的目标日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
上述方案中,所述方法还包括:
按照日志归一化提取策略,从所述日志解析文件中提取目标日志数据集;
将所述目标日志数据集存储至目标数据库中。
所述若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别,包括:
若根据所述设备归属信息确定所述日志文件来源于新增设备,则按照预设的日志文本拆分策略,对所述日志文件进行文本拆分,得到字符串集合;
基于所述字符串集合为所述日志文件确定出候选产品类别。
上述方案中,所述按照预设的日志文本拆分策略,对所述日志文件进行文本拆分,得到字符串集合,包括:
以所述日志文件的文本内容中空格符的位置为拆分依据,对所述日志文件进行文本拆分,得到字符串集合。
上述方案中,所述基于所述字符串集合为所述日志文件确定出候选产品类别,包括:
基于所述字符串集合中每个所述字符串的自适应权重,通过如下公式,为所述日志文件确定出候选产品类别;
其中,P(Aj|b)表示候选产品类别;Wi表示自适应权重;
表示候选产品类别为Aj时,所述字符串集合中每个字符串的自适应权重进行累乘的数值;P(b)表示所述日志文件;bi表示第i个字符串;b_char表示所述字符串集合中属于非数字的字符串个数;b_num表示所述字符串集合中属于数字的字符串个数;α表示所述字符串集合中属于非数字的字符串的权重之和,且α∈[0,1]。
本申请实施例的第二方面提供了一种多源日志解析装置,包括:
调用单元,用于按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息;其中,所述日志缓存队列中包括来自不同设备的日志文件;
适配单元,用于若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别;
解析单元,用于按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
本申请实施例的第三方面提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述计算机设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的多源日志解析方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的多源日志解析方法的各步骤。
实施本申请实施例提供的一种多源日志解析方法、多源日志解析装置、计算机设备及计算机可读存储介质具有以下有益效果:
本申请实施例提供的一种多源日志解析方法,按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对日志文件进行来源设备查询,得到日志文件的设备归属信息,由于日志缓存队列中包括来自不同设备的日志文件,因此根据查询得到的日志文件的设备归属信息能够确定日志文件的来源是否为新增设备,如果根据设备归属信息确定日志文件来源于新增设备,则为日志文件确定出候选产品类别,按照候选产品类别对应的日志解析策略,对日志文件进行日志解析操作,得到日志解析文件,实现了在对多源日志文件进行解析的过程中,通过区分日志文件的来源,进而从已有的产品类别中适配候选产品类别,并且按照候选产品类别对应的日志解析策略进行日志解析,避免采用单一的日志解析策略,对来源于不同设备的不同日志文件进行解析,提高了对日志文件解析的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种多源日志解析方法的实现流程图;
图2是本申请另一实施例提供的一种多源日志解析方法的实现流程图;
图3是本申请再一实施例提供的一种多源日志解析方法的实现流程图;
图4是本申请实施例提供的一种多源日志解析装置的结构框图;
图5是本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本实施例提供的一种多源日志解析方法,执行主体为服务器,具体可以是配置有该方法功能的服务器,或者是服务器集群中的任一服务器。这里,服务器集群可以是由多个服务器组成的服务器集群,基于该服务器集群构建分布式系统,使得服务器集群中的多个服务器之间可以实现数据共享或数据同步。在此基础上,向该服务器集群中的任一服务器配置目标脚本文件,由该目标脚本文件描述本实施例提供的多源日志解析方法,使得该配置有目标脚本文件的服务器能够通过执行该目标脚本文件,进而执行多源日志解析方法中的各个步骤。
在实现时,服务器或者服务器集群中的任一服务器,按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对日志文件进行来源设备查询,得到日志文件的设备归属信息,由于日志缓存队列中包括来自不同设备的日志文件,因此根据查询得到的日志文件的设备归属信息能够确定日志文件的来源是否为新增设备,如果根据设备归属信息确定日志文件来源于新增设备,则为日志文件确定出候选产品类别,按照候选产品类别对应的日志解析策略,对日志文件进行日志解析操作,得到日志解析文件,实现了在对多源日志文件进行解析的过程中,通过区分日志文件的来源,进而从已有的产品类别中适配候选产品类别,并且按照候选产品类别对应的日志解析策略进行日志解析,避免采用单一的日志解析策略,对来源于不同设备的不同日志文件进行解析,提高了对日志文件解析的效率。
例如,服务器将来源于不同设备的日志文件统一缓存后,按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对日志文件进行来源设备查询,得到日志文件的设备归属信息,由于日志缓存队列中包括来自不同设备的日志文件,因此根据查询得到的日志文件的设备归属信息能够确定日志文件的来源是否为新增设备,如果根据设备归属信息确定日志文件来源于新增设备,则为日志文件确定出候选产品类别,按照候选产品类别对应的日志解析策略,对日志文件进行日志解析操作,得到日志解析文件,实现了在对多源日志文件进行解析的过程中,通过区分日志文件的来源,进而从已有的产品类别中适配候选产品类别,并且按照候选产品类别对应的日志解析策略进行日志解析,避免采用单一的日志解析策略,对来源于不同设备的不同日志文件进行解析,提高了对日志文件解析的效率。
以下通过具体实现方式对本实施例提供的一种输出参考数据的方法进行详细说明。
图1是本申请实施例提供的一种多源日志解析方法的实现流程图。如图1所示,多源日志解析方法包括以下步骤:
S11:按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息。
在步骤S11中,日志缓存队列中包括来自不同设备的日志文件。
在本实施例中,日志缓存队列中每个日志文件之间的来源于可以相同或不同,因此当日志缓存列队中相邻的两个日志文件来源于不同的设备时,相邻的两个日志文件之间的文本格式存在较大差异。设备管理工具用于根据日志文件携带的信息,为日志文件进行来源设备查询。
例如,日志文件携带有设备的IP地址,通过调用设备管理工具对日志文件携带的设备的IP地址进行查询,进而能够确定日志文件的来源设备,也即得到日志文件的设备归属信息。
在本申请所有实施例中,设备归属信息用于表征日志文件的来源,同时也是用于区分日志文件来源的唯一标识。
需要说明的是,在物联网中每个设备均有唯一的IP地址,即便是相同产品的不同设备,也配置有不同的IP地址以及不同的设备编号以便于区分。在实际应用中,尽管是相同产品的不同设备之间,也可以进行不同日志生成策略的配置,故通过查询日志文件的设备归属信息,能够更加细化日志文件的来源,且更有针对性地为日志文件适配相应的解析策略。
容易理解的是,在具体实现时,日志缓存队列中的日志文件,可以是服务器从不同设备中拉取或采集得到,也可以是由不同设备主动上传得到。对于一些无法自助上传日志文件的设备,还可以采用部署探针的方式实现日志文件的采集。
S12:若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别。
在步骤S12中,新增设备指的是未曾对其日志文件进行解析的设备。候选产品类别,指的是已有或已记录的产品类别中,与新增设备相同或近似的产品类别。
需要说明的是,在多源日志文件进行解析时,可以预先部署已知设备的日志解析策略,并且基于不同的产品类别进行不同日志解析策略的区分。故当服务器对新增设备的日志文件进行解析时,通过为新增设备适配候选产品类别,进而为新增设备的日志文件适配相应的解析策略,能够进一步提高对日志文件进行解析的效率。
在具体实现时,可以根据新增设备的厂商名称、设备名称以及功能用途中的至少一种确定出候选产品类别。
例如,新增设备的名称为XXX的电脑,则可以将已有的计算机产品类别作为候选产品类别。
再例如,新增设备为摄像头,则可以将已有的图像采集产品类别作为候选产品类别。
在实际应用中,还可以通过对日志文件内容进行拆分,并对拆分得到的内容进行分类解析,进而确定出与新增设备候选产品类别。
作为一个实施例,步骤S12包括:
若根据所述设备归属信息确定所述日志文件来源于新增设备,则按照预设的日志文本拆分策略,对所述日志文件进行文本拆分,得到字符串集合;基于所述字符串集合为所述日志文件确定出候选产品类别。
在本实施例中,预设的日志文本拆分策略,用于描述对日志文本进行拆分的方法。由于日志文件中包含多条日志文本内容,因此对日志文件进行文本拆分,可以得到多条字符串,进而组合成字符串集合。
需要说明的是,设备在生成日志文件时,日志内容除了包含有设备名称之外,还有设备运行的时间,并且还与设备本身的功能以及设备的具体工作参数相关。因此通过对日志文件进行文本拆分,能够基于文本拆分所得的字符串集合,查找到与新增设备相同或相似的产品,进而确定出近似的候选产品类型。
在具体实现时,对日志文件进行文本拆分,可以是通过对日志文本进行扫描,通过区分字符之间间距或者进行语义识别,将能够组合且表征具体含义的字符作为一条完整的字符串。
作为一个实施例,上述步骤:按照预设的日志文本拆分策略,对所述日志文件进行文本拆分,得到字符串集合,包括:
以所述日志文件的文本内容中空格符的位置为拆分依据,对所述日志文件进行文本拆分,得到字符串集合。
在本实施例中,为了避免相同或相关联文本内容被误拆分,以及避免文本拆分过程中出现无意义的单个字符等,以文本内容中的空格符作为拆分节点,对日志文件进行文本拆分,使得相互连续的字符之间能够作为同一条字符串,保证了文本拆分后得到的字符串集合与日志文本本身高度契合。
可以理解的是,在实际应用中还可以根据不同的日志文件配置不同的文本拆分策略。例如,也可以采用已有的基于自然语言开发的文本识别工具对日志文件进行文本拆分。由于日志文件中的内容属于文本,且现有技术中已经存在较多对文本实现拆分的方案,故此处不再对如何进行文本拆分进行赘述。
作为一个实施例,上述步骤:基于所述字符串集合为所述日志文件确定出候选产品类别,包括:
基于所述字符串集合中每个所述字符串的自适应权重,通过如下公式,为所述日志文件确定出候选产品类别;
其中,P(Aj|b)表示候选产品类别;Wi表示自适应权重;
表示候选产品类别为Aj时,所述字符串集合中每个字符串的自适应权重进行累乘的数值;P(b)表示所述日志文件;bi表示第i个字符串;b_char表示所述字符串集合中属于非数字的字符串个数;b_num表示所述字符串集合中属于数字的字符串个数;α表示所述字符串集合中属于非数字的字符串的权重之和,且α∈[0,1]。
在本实施例中,基于字符串集合为日志文件确定出候选产品类别时,通过区分字符串为数字或非数字,进而自适应不同大小的权重值。
这里,为日志文件确定出候选产品类别时,以朴素贝叶斯的计算原理为基础,结合设备生成日志文件的特点进行变形,进而得出上述公式。需要说明的是,由于设备产生的日志文件中,文本内容通常包含数字和字符,但其中数字往往包含较少重要信息。例如,表征时间的数字字符串的权重更低,表征用户登录登出的信息(非数字的字符串)权重更高。利用朴素贝叶斯会计算字符串集合的权重,即可拉开数字字符串与非数字字符串之间的数值差别,进而适配出候选产品类别。
容易理解是,如果去定日志文件来源为已有设备,则无需为其适配候选产品类别。
作为一个示例,与步骤S12并列的,在步骤S11之后,还包括直接解析的步骤,具体地:
若根据所述设备归属信息确定所述日志文件来源于已有设备,则根据所述已有设备对应产品类别的目标日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
可以理解是,上述直接解析的步骤与步骤S12为并列步骤,在执行了步骤S12之后便不再执行上述直接解析的步骤,在执行了直接解析的步骤则不再执行步骤S12。
S13:按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
在步骤S13中,日志解析策略,用于描述对日志文件进行解析的方法或规则。
本实施例中,由于候选产品类别是已有产品的归类类别,且该候选产品类别与新增设备所属产品最为接近,因此将新增设备的日志文件以该候选产品类别对应的日志解析策略进行日志解析操作,是从日志文件的内容上,更大概率地契合日志解析策略,也即更大概率地实现对日志文件内容的准确解析,进而提高了对多源日志进行解析的效率。
以上可以看出,本实施例提供的一种多源日志解析方法,按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对日志文件进行来源设备查询,得到日志文件的设备归属信息,由于日志缓存队列中包括来自不同设备的日志文件,因此根据查询得到的日志文件的设备归属信息能够确定日志文件的来源是否为新增设备,如果根据设备归属信息确定日志文件来源于新增设备,则为日志文件确定出候选产品类别,按照候选产品类别对应的日志解析策略,对日志文件进行日志解析操作,得到日志解析文件,实现了在对多源日志文件进行解析的过程中,通过区分日志文件的来源,进而从已有的产品类别中适配候选产品类别,并且按照候选产品类别对应的日志解析策略进行日志解析,避免采用单一的日志解析策略,对来源于不同设备的不同日志文件进行解析,提高了对日志文件解析的效率。
请参阅图2,图2是本申请另一实施例提供的一种多源日志解析方法的实现流程图。与图1对应的实施例相比,图2示出的多源日志解析方法在步骤S11之前还包括步骤S21~S22。如图2所示,具体地:
S21:将来自不同设备的日志文件,存储至预设的缓存队列中,得到待排序队列。
S22:按照先进先出的原则,对所述待排序队列进行排序,得到日志缓存队列。
在本实施例中,预设的缓存队列可以是服务器中配置的缓存队列,在服务器接收到来自不同设备的不同日志文件时,将日志文件存储在该缓存队列中。并且按照先进先出的原则,对该列队中的日志文件进行排序。
这里,先进先出的原则指的是先进入缓存队列中的日志文件将先被进行日志解析。当日志文件进行日志解析操作后,该日志文件则不再被存储于缓存列对中。
在具体实现时,预设的缓存队列还可以是配置在分布式日志缓存模块中,用于临时存储接收的日志数据,且按照先进先出的原则将日志文件存储到缓存队列,在每接收到一个新的日志文件时,该日志文件将被存储到列队最后一位,队列头部的日志文件将会等待下一步处理,能够缓解后续日志解析时占用资源压力。
请参阅图3,图3是本申请再一实施例提供的一种多源日志解析方法的实现流程图。与图2对应的实施例相比,图3示出的多源日志解析方法在步骤S13之后还包括步骤S31~S32。如图3所示,具体地:
S31:按照日志归一化提取策略,从所述日志解析文件中提取目标日志数据集。
S32:将所述目标日志数据集存储至目标数据库中。
在本实施例中,日志归一化提取策略,用于描述对日志解析文件进行提取的方法或规则。目标日志数据集包括需要从日志解析文件中提取的重要数据内容或关键信息。
这里,日志归一化提取策略还用于表征对日志内容提取需求的侧重点或偏好。故在实际应用中,可以根据实际需求配置不同的日志归一化提取策略,以便于按照不同的日志归一化提取策略,从日志解析文件中提取目标日志数据集。
本实施例的方案中,目标数据库可以是预先配置在服务器中,也可以是预先配置在服务器所在的分布式系统中。通过将目标日志数据集存储至目标数据库中,便于后续对新增设备进行日志数据的查询与日志数据的分析。也即为后续基于日志解析数据进行设备故障分析提供了实现基础。
请参阅图4,图4是本申请实施例提供的一种多源日志解析装置的结构框图。本实施例中该多源日志解析装置包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,多源日志解析装置40,包括:调用单元41、适配单元42以及解析单元43。
调用单元41,用于按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息;其中,所述日志缓存队列中包括来自不同设备的日志文件;
适配单元42,用于若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别;
解析单元43,用于按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
作为一个实施例,多源日志解析装置40还包括:
缓存单元,用于将来自不同设备的日志文件,存储至预设的缓存队列中,得到待排序队列。
排序单元,用于按照先进先出的原则,对所述待排序队列进行排序,得到日志缓存队列。
作为一个实施例,多源日志解析装置40还包括:
提取单元,用于按照日志归一化提取策略,从所述日志解析文件中提取目标日志数据集。
存储单元,用于将所述目标日志数据集存储至目标数据库中。
应当理解的是,本实施例提供的多源日志解析装置,各单元用于执行图1至图3对应的实施例中的各步骤,而对于图1至图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述,此处不再赘述。
图5是本申请实施例提供的一种计算机设备的结构框图。如图5所示,该实施例的计算机设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如多源日志解析方法的程序。处理器50执行所述计算机程序52时实现上述各个多源日志解析方法各实施例中的步骤,例如图1所示的各步骤,或者,图2或图3所示的各步骤。或者,所述处理器50执行所述计算机程序52时实现上述图4对应的实施例中各单元的功能。具体请参阅图4对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序52可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述计算机设备5中的执行过程。例如,所述计算机程序52可以被分割成调用单元、适配单元以及解析单元各单元具体功能如上所述。
所述计算机设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是计算机设备5的示例,并不构成对计算机设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述计算机设备5的内部存储单元,例如计算机设备5的硬盘或内存。所述存储器51也可以是所述计算机设备5的外部存储设备,例如所述计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种多源日志解析方法,其特征在于,包括:
按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息;其中,所述日志缓存队列中包括来自不同设备的日志文件;
若根据所述设备归属信息确定所述日志文件来源于新增设备,则以所述日志文件的文本内容中空格符的位置为拆分依据,对所述日志文件进行文本拆分,得到字符串集合;
基于所述字符串集合中每个所述字符串的自适应权重,通过如下公式,为所述日志文件确定出候选产品类别;
其中,P(Aj|b)表示所述日志文件属于第j个候选产品类别Aj的概率;P(Aj)表示第j个候选产品类别Aj的先验概率;Wi表示自适应权重,属于非数字的字符串对应的自适应权重Wi和属于数字的字符串对应的自适应权重Wi之和为1;bi表示第i个字符串;P(bi|Aj)表示第j个候选产品类别下第i个字符串出现的概率;P(b)表示所述日志文件的先验概率;b_char表示所述字符串集合中属于非数字的字符串个数;b_num表示所述字符串集合中属于数字的字符串个数;α表示所述字符串集合中属于非数字的字符串的预设权重之和,且α∈[0,1],α的确定基于如下策略:属于数字的字符串的预设权重之和小于属于非数字的字符串的预设权重之和;
按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
2.根据权利要求1所述的多源日志解析方法,其特征在于,在所述按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息的步骤之前,还包括:
将来自不同设备的日志文件,存储至预设的缓存队列中,得到待排序队列;
按照先进先出的原则,对所述待排序队列进行排序,得到日志缓存队列。
3.根据权利要求1所述的多源日志解析方法,其特征在于,在所述按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息的步骤之后,还包括:
若根据所述设备归属信息确定所述日志文件来源于已有设备,则根据所述已有设备对应产品类别的目标日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
4.根据权利要求1所述的多源日志解析方法,其特征在于,所述方法还包括:
按照日志归一化提取策略,从所述日志解析文件中提取目标日志数据集;
将所述目标日志数据集存储至目标数据库中。
5.一种多源日志解析装置,其特征在于,用于实现如权利要求1至4任一项所述的多源日志解析方法,所述多源日志解析装置包括:
调用单元,用于按照日志缓存队列中日志文件的排列顺序,调用设备管理工具对所述日志文件进行来源设备查询,得到所述日志文件的设备归属信息;其中,所述日志缓存队列中包括来自不同设备的日志文件;
适配单元,用于若根据所述设备归属信息确定所述日志文件来源于新增设备,则为所述日志文件确定出候选产品类别;
解析单元,用于按照所述候选产品类别对应的日志解析策略,对所述日志文件进行日志解析操作,得到日志解析文件。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述计算机设备上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述多源日志解析方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述多源日志解析方法的步骤。
CN202210178046.7A 2022-02-24 2022-02-24 多源日志解析方法、装置、计算机设备及介质 Active CN114598597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210178046.7A CN114598597B (zh) 2022-02-24 2022-02-24 多源日志解析方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210178046.7A CN114598597B (zh) 2022-02-24 2022-02-24 多源日志解析方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN114598597A CN114598597A (zh) 2022-06-07
CN114598597B true CN114598597B (zh) 2023-12-01

Family

ID=81804937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210178046.7A Active CN114598597B (zh) 2022-02-24 2022-02-24 多源日志解析方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN114598597B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150166B (zh) * 2022-06-30 2024-03-12 广东电网有限责任公司 一种日志收集与分析管理系统
CN116628451B (zh) * 2023-05-31 2023-11-14 江苏华存电子科技有限公司 一种待处理信息的高速解析方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003224797A (ja) * 2002-01-30 2003-08-08 Sony Corp コンテンツデータの処理装置および処理方法、並びにその方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体
CN105824744A (zh) * 2016-03-21 2016-08-03 焦点科技股份有限公司 一种基于b2b平台的实时日志采集分析方法
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN109324996A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 日志文件处理方法、装置、计算机设备及存储介质
JP2019053386A (ja) * 2017-09-13 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质
CN110222744A (zh) * 2019-05-23 2019-09-10 成都信息工程大学 一种基于属性加权的朴素贝叶斯分类模型改进方法
CN110888849A (zh) * 2019-11-06 2020-03-17 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN111274218A (zh) * 2020-01-13 2020-06-12 国网浙江省电力有限公司信息通信分公司 一种电力信息系统多源日志数据处理方法
CN111526060A (zh) * 2020-06-16 2020-08-11 网易(杭州)网络有限公司 业务日志的处理方法及系统
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN112463772A (zh) * 2021-02-02 2021-03-09 北京信安世纪科技股份有限公司 日志处理方法、装置、日志服务器及存储介质
CN112711678A (zh) * 2019-10-25 2021-04-27 北京京东尚科信息技术有限公司 数据解析方法、装置、设备及存储介质
CN113807051A (zh) * 2021-09-01 2021-12-17 中国人民解放军75798部队 文件类型识别方法、装置、计算机设备和存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003224797A (ja) * 2002-01-30 2003-08-08 Sony Corp コンテンツデータの処理装置および処理方法、並びにその方法を実行するためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な媒体
CN105824744A (zh) * 2016-03-21 2016-08-03 焦点科技股份有限公司 一种基于b2b平台的实时日志采集分析方法
JP2019053386A (ja) * 2017-09-13 2019-04-04 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107391772A (zh) * 2017-09-15 2017-11-24 国网四川省电力公司眉山供电公司 一种基于朴素贝叶斯的文本分类方法
CN108170538A (zh) * 2017-12-08 2018-06-15 北京奇艺世纪科技有限公司 一种信息处理方法、装置以及电子设备
CN109324996A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 日志文件处理方法、装置、计算机设备及存储介质
CN109933505A (zh) * 2019-03-14 2019-06-25 深圳市珍爱捷云信息技术有限公司 日志处理方法、装置、计算机设备和存储介质
CN110222744A (zh) * 2019-05-23 2019-09-10 成都信息工程大学 一种基于属性加权的朴素贝叶斯分类模型改进方法
CN112711678A (zh) * 2019-10-25 2021-04-27 北京京东尚科信息技术有限公司 数据解析方法、装置、设备及存储介质
CN110888849A (zh) * 2019-11-06 2020-03-17 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN111274218A (zh) * 2020-01-13 2020-06-12 国网浙江省电力有限公司信息通信分公司 一种电力信息系统多源日志数据处理方法
CN111526060A (zh) * 2020-06-16 2020-08-11 网易(杭州)网络有限公司 业务日志的处理方法及系统
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法
CN112463772A (zh) * 2021-02-02 2021-03-09 北京信安世纪科技股份有限公司 日志处理方法、装置、日志服务器及存储介质
CN113807051A (zh) * 2021-09-01 2021-12-17 中国人民解放军75798部队 文件类型识别方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于校园网多源日志的安全事件分析;朱亮;《中国优秀硕士学位论文全文数据库》;全文 *
多源日志分析平台的研究与实现;王冠男;《中国优秀硕士学位论文全文数据库》;全文 *

Also Published As

Publication number Publication date
CN114598597A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
US20200322443A1 (en) Techniques for compact data storage of network traffic and efficient search thereof
US10452691B2 (en) Method and apparatus for generating search results using inverted index
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
US10673814B1 (en) Domain name classification systems and methods
US20150234927A1 (en) Application search method, apparatus, and terminal
KR20080024156A (ko) 검색을 위한 백-오프 메커니즘
KR101719500B1 (ko) 캐싱된 플로우들에 기초한 가속
US20200311114A1 (en) System for topic discovery and sentiment analysis on a collection of documents
US10417285B2 (en) Corpus generation based upon document attributes
CN110795756A (zh) 一种数据脱敏方法、装置、计算机设备及计算机可读存储介质
US10740570B2 (en) Contextual analogy representation
US8918406B2 (en) Intelligent analysis queue construction
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
CN112883088B (zh) 一种数据处理方法、装置、设备及存储介质
KR20200066428A (ko) 행위 기반 룰 처리 장치 및 그 처리 방법
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN115051859A (zh) 情报分析方法、情报分析装置、电子设备及介质
CN116822491A (zh) 日志解析方法及装置、设备、存储介质
CN114168557A (zh) 一种访问日志的处理方法、装置、计算机设备和存储介质
CN113992625A (zh) 域名源站探测方法、系统、计算机及可读存储介质
US10915594B2 (en) Associating documents with application programming interfaces
US10325025B2 (en) Contextual analogy representation
US10528904B2 (en) Workflow processing via policy workflow workers
CN112784596A (zh) 一种识别敏感词的方法和装置
CN114756901B (zh) 操作性风险监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant