CN113656354A - 日志分类方法、系统、计算机设备和可读存储介质 - Google Patents

日志分类方法、系统、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN113656354A
CN113656354A CN202110902239.8A CN202110902239A CN113656354A CN 113656354 A CN113656354 A CN 113656354A CN 202110902239 A CN202110902239 A CN 202110902239A CN 113656354 A CN113656354 A CN 113656354A
Authority
CN
China
Prior art keywords
log
model
data
training
set data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110902239.8A
Other languages
English (en)
Inventor
王雪巍
范渊
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202110902239.8A priority Critical patent/CN113656354A/zh
Publication of CN113656354A publication Critical patent/CN113656354A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种日志分类方法、系统、计算机设备和可读存储介质,其中,该日志分类方法包括:建立基于DBSCAN算法的原始日志分类模型;利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型,所述训练集数据包括多条带有类别标签的历史日志;利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。通过本申请,解决了现有的日志聚合分类需要不断调整,聚合效率低,并且易出错、数据不够全面的问题,实现了自动化处理海量日志数据并提高了日志聚合的效率和准确性,以及还能够降低应用平台的运维成本。

Description

日志分类方法、系统、计算机设备和可读存储介质
技术领域
本申请涉及服务链路开发技术领域,特别是涉及一种日志分类方法、系统、计算机设备和可读存储介质。
背景技术
服务器、系统及服务程序等,在运作时都会产生日志事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。在程序正确运行时输出合适的日志消息,只是合理使用日志的第一步,日志记录的真正作用在于当有问题发生时,能够帮助开发人员很快的定位问题所在,然而设备及程序产生的日志多种多样,如果应用系统较大,产生的日志量也是巨大的,运维人员在大量的日志数据中进行故障定位或者发现潜在的威胁需要付出巨大的努力,而且整体应用系统的规模越大需要耗费的精力也越大,从而造成企业投入较大的运维成本。
现有的日志聚合技术,大多需要根据日志类型以及日志中的有效字段(比如IP地址等)进行正则规则匹配,从而对解析日志进行规则匹配,然而这种正则的判定方式往往是不全面的,需要工作人员根据日志格式不断调整正则规则,不仅聚合效率低,而且还易出错、数据不够全面。
目前针对相关技术中对日志数据进行聚合时需要不断调整,聚合效率低,并且易出错、数据不够全面的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种日志分类方法、系统、计算机设备和可读存储介质,以至少解决相关技术中对日志数据进行聚合时需要不断调整,聚合效率低,并且易出错、数据不够全面的问题。
第一方面,本申请实施例提供了一种日志分类方法,包括:
建立基于DBSCAN算法的原始日志分类模型;
利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型,所述训练集数据包括多条带有类别标签的历史日志;
利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在其中一些实施例中,所述利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型的步骤具体包括:
将所述训练集数据中的各个历史日志分别转化为布尔向量;
计算任意两个所述历史日志的布尔向量的杰卡德系数;
根据杰卡德系数计算任意两个所述历史日志的杰拉德距离;
根据所述历史日志的杰卡德距离和对应的类别标签对所述原始日志分类模型进行训练,得到目标日志模型。
在其中一些实施例中,所述杰卡德系数的计算公式如下:
Figure BDA0003200185720000021
所述杰卡德距离的计算公式如下:
Figure BDA0003200185720000022
其中,A和B分别表示一条历史日志的布尔向量,J(A,B)表示布尔向量A和布尔向量B的杰卡德系数,dj(A,B)表示布尔向量A对应的历史日志和布尔向量B对应的历史日志的杰卡德距离。
在其中一些实施例中,所述利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤之前,所述方法还包括:
利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格;
若是,则执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤。
在其中一些实施例中,所述利用训练集数据对所述原始日志分类模型进行训练的步骤之前,所述方法还包括:
将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据;
所述利用训练集数据对所述原始日志分类模型进行训练的步骤包括:
利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
第二方面,本申请实施例提供了一种日志分类系统,包括:
建模模块,用于建立基于DBSCAN算法的原始日志分类模型;
训练模块,用于利用训练集数据对所述原始日志分类模型进行训练,得到训练后的目标日志模型;
分类模块,用于利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在其中一些实施例中,所述系统还包括:
测试模块,用于利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格;若是,执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤。
在其中一些实施例中,所述训练模块包括:
获取单元,用于将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据;
训练单元,用于利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的日志分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的日志分类方法。
相比于相关技术,本申请实施例提供的日志分类方法、系统、计算机设备和可读存储介质,通过利用基于DBSCAN算法建立原始日志分类模型,并利用训练集数据对原始日志分类模型进行训练,得到目标日志模型,通过测试集数据对目标日志模型进行测试,且以测试结果判断目标日志模型是否合格,如果测试结果通过预设条件,则利用测试过后的目标日志模型对待检测日志数据进行聚合分类,以此解决现有的日志聚合方式聚合效率低,并且易出错、数据不够全面的问题,实现自动化处理海量日志数据并提高了日志聚合的效率和准确性,以及还能够降低应用平台的运维成本。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的日志分类方法的流程图;
图2是根据本申请第二实施例的日志分类方法的流程图;
图3是图2中步骤S203的详细流程图;
图4是根据本申请第三实施例的日志分类系统的结构框图;
图5是根据本申请第四实施例的日志分类系统的结构框图;
图6是根据本申请第五实施例的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明第一实施例提供了一种日志分类方法。图1是根据本申请第一实施例的日志分类方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,建立基于DBSCAN算法的原始日志分类模型;
其中,DBSCAN是一个比较有代表性的基于密度的聚类算法,与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
步骤S102,利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型,所述训练集数据包括多个带有类别标签的历史日志;
其中,在这一步骤中,首先要获取接入设备的历史日志,接入设备是指接入至日志分析平台的设备,且日志分析平台是指自主开发的系统,用于收集、解析和存储日志数据,可以理解的,服务器、系统及服务程序等,在运作时都会产生日志时间记录。通过对获取到的所述历史日志,进行标准化处理后再人为附上类别标签,以此得到所述训练集数据,然后将所述训练集数据输入到所述原始日志分类模型,对模型进行训练,得到可以能够对待测试日志数据进行聚合分类的所述目标日志模型。
步骤S103,利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在本实施例中,通过利用基于DBSCAN算法建立原始日志分类模型,并利用训练集数据对原始日志分类模型进行训练,得到目标日志模型,再利用所述目标日志模型对待检测日志数据进行聚合分类,区别于现有技术,通过DBSCAN算法建立的模型来对日志数据进行自动分析并且处理,不需要根据日志格式不断进行调整正则规则,并且处理,实现高效率、自动化以及准确性高的目的,并且当有问题发生时,能够快速帮助开发人员定位问题所在,并及时将问题解决掉。
在其中一些实施例中,所述利用训练集数据对所述原始日志分类模型进行训练的步骤之前,所述方法还包括:
将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据。
该情况下,所述利用训练集数据对所述原始日志分类模型进行训练的步骤包括:
利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
通过上述步骤,对所述训练集数据中的历史日志转换为键值对的形式的处理为标准化处理,具体的获得所述训练集数据的步骤为,先将所述历史日志转换为键值对的形式,键值对包括关键字段和关键字段值,关键字段代表历史日志中的特征,每个关键字段都会对应一个唯一的关键字段值,关键字段值表示该所述历史日志的具体内容,可以理解的,具体内容主要为发生对应的日志的日期、时间、使用者及动作等相关操作的描述。然后将转换后的所述历史日志向量化,且为布尔向量,以此得到所述训练集数据,然后再利用被处理后的所述训练集数据对所述原始日志分类模型进行训练。
图2是根据本申请第二实施例的日志分类方法的流程图,如图2所示,该日志分类方法包括如下步骤:
步骤S201,建立基于DBSCAN算法的原始日志分类模型;
步骤S202,获取训练集数据,并将训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据,所述训练集数据包括多个带有类别标签的历史日志;
其中,历史日志为接入设备以前所产生的日志,并且该历史日志需要进行标准化处理并认为附上类别标签,再向量化且为布尔向量,才得以形成训练集数据,才能对原始日志分类模型进行训练,而原始的历史日志的形式是无法输入至模型中的,且标准化处理也就是将历史数据转换为键值对的形式,并存储在日志文件中。
步骤S203,利用转换后的所述训练集数据对所述原始日志分类模型进行训练,得到目标日志模型;
步骤S204,利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格,若是,则执行步骤S205;
其中,对所述目标日志模型进行测试,是为了判断所述目标日志模型是否合格,在本实施例中,在测试之间会预设合格条件,当测试结果符合合格条件时,才能执行下一个步骤,如果测试结果不满足合格条件,则对所述目标日志模型的参数不断进行调整,直至测试结果达到预设的合格条件后,再执行利用所述目标日志模型对待检测数据进行聚合分类的步骤。
步骤S205,利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在本实施例中,所述目标日志模型更稳定,同时对待检测日志数据聚合分类也更为准确,具体的,获取到的所述测试集数据包括多个带有类别标签的历史日志,并且该所述测试集数据中的历史日志也需进行标准化处理,也就是说,先将原始历史日志转换为键值对的形式,再将转换后的测试集数据中的历史日志向量化后,且为布尔向量,才能利用所述测试集数据中的历史日志对所述目标日志模型进行测试,并根据测试结果计算模型的性能指标,与预设合格条件对比,判断该所述目标日志模型是否合格,若是,则执行利用所述目标日志模型对待测试日志数据进行聚合分类的步骤,若否,则对目标日志模型的参数不断进行调整,直至测试结果达到预设条件后,再执行利用目标日志模型对待检测数据进行聚合分类的步骤。
在本实施例中,增加对所述目标日志模型的测试,并根据测试结果不断将所述目标日志模型的参数进行调整,不仅有利于提高所述目标日志模型的准确性和稳定性,并且更加高效,同时也使待检测数据检测结果准确性更高。
下面通过优选实施例对本申请实施例进行描述和说明。
如图3所示,在本申请中的另一实施例中,步骤S203中,利用训练集数据对所述原始日志分类模型进行训练,得到所述目标日志模型的步骤具体包括:
步骤S301,将所述训练集数据中的各个历史日志分别转化为布尔向量;
其中,将所述训练集数据中的各个历史日志向量化,并转化为n维布尔向量,即所有维度的取值为0或1,比如所述训练集数据中的一个历史日志A的布尔向量是(0,1,0,1,0,……1),训练集数据中的另一个历史日志B(0,0,1,0,0,……0)。布尔向量的每个维度对应了一个词,即向量1表示对应位置的字段出现在所述历史日志中,0表示不含该字段元素。
步骤S302,计算任意两个所述历史日志的布尔向量的杰卡德系数;
步骤S303,根据杰卡德系数计算任意两个所述历史日志的杰拉德距离;
其中,需要说明的是,杰卡德距离表示两个集合之间的不相似度,也就是说,计算得到的杰卡德距离越大,则表示对应的两个所述历史日志越不同,则能够判断这两个所述历史日志为不同类别。
步骤S304,根据所述历史日志的杰卡德距离和对应的类别标签对所述原始日志分类模型进行训练,得到目标日志模型。
在本实施例中,提取任意两个所述历史日志的布尔向量,计算这两个所述历史日志的布尔向量的杰卡德系数,相应的,根据这两个所述历史日志的布尔向量以及计算得到的杰卡德系数,来计算杰卡德距离,然后利用杰拉德距离以及历史日志上附有的类别标签对原始日志分类模型进行模型,可以理解的,DBSCAN算法定义从某个选定的核心点出发,不断向可达区域扩大,从而得到一个包含核心日志和便捷日志的最大化区域,区域中任意两点的密度相连,最终得到一个聚类的集合,需要说明的是,核心点不限于单个,可为多个,比如:如果样本集合D的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。
在其中一些实施例中,所述杰卡德系数的计算公式如下:
Figure BDA0003200185720000081
所述杰卡德距离的计算公式如下:
Figure BDA0003200185720000082
其中,A和B分别表示一条历史日志的布尔向量,J(A,B)表示布尔向量A和布尔向量B的杰卡德系数,dj(A,B)表示布尔向量A对应的历史日志和布尔向量B对应的历史日志的杰卡德距离。
本发明第三实施例还提供了一种日志分类系统,该系统用于实现上述第一实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请第三实施例的日志分类系统的结构框图,如图4所示,该系统包括:
建模模块10,用于建立基于DBSCAN算法的原始日志分类模型;
训练模块20,用于利用训练集数据对所述原始日志分类模型进行训练,得到训练后的目标日志模型;
分类模块30,用于利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在本实施例中,通过利用基于DBSCAN算法建立原始日志分类模型,并利用训练集数据对原始日志分类模型进行训练,得到目标日志模型,再利用测试过后的目标日志模型对待检测日志数据进行聚合分类,以此解决现有的日志聚合方式聚合效率低,并且易出错、数据不够全面的问题,实现自动化处理海量日志数据并提高了日志聚合的效率和准确性,以及还能够降低应用平台的运维成本。
本发明第四实施例还提供了一种日志分类系统,该系统用于实现上述第二实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请第四实施例的日志分类系统的结构框图,如图5所示,该系统包括:
建模模块40,用于建立基于DBSCAN算法的原始日志分类模型;
训练模块50,用于利用训练集数据对所述原始日志分类模型进行训练,得到训练后的目标日志模型;
测试模块60,用于测试集数据测试所述目标日志模型是否达到预设条件值,若是,则判断所述目标日志模型合格,若是,则执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤;
分类模块70,用于利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
在其中一些实施例中,所述训练模块50包括:
获取单元,用于将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据;
训练单元,用于利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请第一实施例和第二实施例中的日志分类方法均可以由计算机设备来实现。图6为根据本申请第五实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器62以及存储有计算机程序指令的存储器63。
具体地,上述处理器62可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器63可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器63可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器63可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器63可在数据处理系统的内部或外部。在特定实施例中,存储器63是非易失性(Non-Volatile)存储器。在特定实施例中,存储器63包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器63可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器62所执行的可能的计算机程序指令。
处理器62通过读取并执行存储器63中存储的计算机程序指令,以实现上述实施例中的任意一种日志分类方法。
在其中一些实施例中,计算机设备还可包括通信接口64和总线61。其中,如图6所示,处理器62、存储器63、通信接口64通过总线61连接并完成相互间的通信。
通信接口64用于实现本申请实施例中各模块、系统、单元和/或设备之间的通信。通信接口64还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线61包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线61包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线61可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线61可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线61,但本申请考虑任何合适的总线61或互连。
该计算机设备可以基于获取到的计算机程序,执行本申请实施例中的日志分类方法,从而实现结合图1描述的日志分类方法。
另外,结合上述实施例中的日志分类方法,本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种日志分类方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种日志分类方法,其特征在于,包括:
建立基于DBSCAN算法的原始日志分类模型;
利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型,所述训练集数据包括多个带有类别标签的历史日志;
利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
2.根据权利要求1所述的日志分类方法,其特征在于,所述利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型的步骤具体包括:
将所述训练集数据中的各个历史日志分别转化为布尔向量;
计算任意两个所述历史日志的布尔向量的杰卡德系数;
根据所述杰卡德系数计算任意两个所述历史日志的杰拉德距离;
根据所述历史日志的杰卡德距离和对应的类别标签对所述原始日志分类模型进行训练,得到目标日志模型。
3.根据权利要求2所述的日志分类方法,其特征在于,所述杰卡德系数的计算公式如下:
Figure FDA0003200185710000011
所述杰卡德距离的计算公式如下:
Figure FDA0003200185710000012
其中,A和B分别表示一条历史日志的布尔向量,J(A,B)表示布尔向量A和布尔向量B的杰卡德系数,dj(A,B)表示布尔向量A对应的历史日志和布尔向量B对应的历史日志的杰卡德距离。
4.根据权利要求1所述的日志分类方法,其特征在于,所述利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤之前,所述方法还包括:
利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格;
若是,则执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤。
5.根据权利要求1所述的日志分类方法,其特征在于,所述利用训练集数据对所述原始日志分类模型进行训练的步骤之前,所述方法还包括:
将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据;
所述利用训练集数据对所述原始日志分类模型进行训练的步骤包括:
利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
6.一种日志分类系统,其特征在于,包括:
建模模块,用于建立基于DBSCAN算法的原始日志分类模型;
训练模块,用于利用训练集数据对所述原始日志分类模型进行训练,得到训练后的目标日志模型;
分类模块,用于利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。
7.根据权利要求6所述的日志分类系统,其特征在于,所述系统还包括:
测试模块,用于利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格;若是,执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤。
8.根据权利要求6所述的日志分类系统,其特征在于,所述训练模块包括:
获取单元,用于将所述训练集数据中的历史日志转换为键值对的形式,以得到转换后的训练集数据;
训练单元,用于利用转换后的所述训练集数据对所述原始日志分类模型进行训练。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的日志分类方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的日志分类方法。
CN202110902239.8A 2021-08-06 2021-08-06 日志分类方法、系统、计算机设备和可读存储介质 Withdrawn CN113656354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902239.8A CN113656354A (zh) 2021-08-06 2021-08-06 日志分类方法、系统、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902239.8A CN113656354A (zh) 2021-08-06 2021-08-06 日志分类方法、系统、计算机设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN113656354A true CN113656354A (zh) 2021-11-16

Family

ID=78478557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902239.8A Withdrawn CN113656354A (zh) 2021-08-06 2021-08-06 日志分类方法、系统、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113656354A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370844A (zh) * 2023-11-02 2024-01-09 重庆数字城市科技有限公司 一种空间大数据治理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
WO2019079621A1 (en) * 2017-10-19 2019-04-25 Circadence Corporation METHOD AND SYSTEM FOR CLASSIFYING PENETRATION TESTS BASED ON CAPTURED LOG DATA
CN112256863A (zh) * 2020-09-18 2021-01-22 华为技术有限公司 一种确定语料意图的方法、装置及电子设备
CN112685374A (zh) * 2019-10-17 2021-04-20 中国移动通信集团浙江有限公司 日志分类方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
WO2019079621A1 (en) * 2017-10-19 2019-04-25 Circadence Corporation METHOD AND SYSTEM FOR CLASSIFYING PENETRATION TESTS BASED ON CAPTURED LOG DATA
CN112685374A (zh) * 2019-10-17 2021-04-20 中国移动通信集团浙江有限公司 日志分类方法、装置及电子设备
CN112256863A (zh) * 2020-09-18 2021-01-22 华为技术有限公司 一种确定语料意图的方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370844A (zh) * 2023-11-02 2024-01-09 重庆数字城市科技有限公司 一种空间大数据治理方法及系统

Similar Documents

Publication Publication Date Title
US20180082215A1 (en) Information processing apparatus and information processing method
CN112889042A (zh) 机器学习中超参数的识别与应用
CN112685324B (zh) 一种生成测试方案的方法及系统
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN112346993B (zh) 一种情报分析引擎的测试方法、装置及设备
CN111400695B (zh) 一种设备指纹生成方法、装置、设备和介质
CN110737650A (zh) 数据质量检测方法及装置
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN113656354A (zh) 日志分类方法、系统、计算机设备和可读存储介质
CN110413596A (zh) 字段处理方法及装置、存储介质、电子装置
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN112434471A (zh) 提升模型泛化能力的方法、系统、电子设备及存储介质
CN111324732A (zh) 模型训练方法、文本处理方法、装置及电子设备
CN118014451B (zh) 软件项目的数据处理方法、装置、设备及存储介质
CN116541252B (zh) 一种机房故障日志数据处理方法及装置
CN112328787B (zh) 文本分类模型训练方法、装置、终端设备及存储介质
CN116192525A (zh) 一种设备识别方法、装置、电子设备及可读存储介质
CN118014451A (zh) 软件项目的数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211116