CN115422000A - 异常日志处理方法及装置 - Google Patents

异常日志处理方法及装置 Download PDF

Info

Publication number
CN115422000A
CN115422000A CN202211009085.0A CN202211009085A CN115422000A CN 115422000 A CN115422000 A CN 115422000A CN 202211009085 A CN202211009085 A CN 202211009085A CN 115422000 A CN115422000 A CN 115422000A
Authority
CN
China
Prior art keywords
abnormal
log
abnormal log
logs
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211009085.0A
Other languages
English (en)
Inventor
李国斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202211009085.0A priority Critical patent/CN115422000A/zh
Publication of CN115422000A publication Critical patent/CN115422000A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及数据处理技术领域,提供一种异常日志处理方法及装置。所述方法包括:对各待选异常日志进行第一相似度匹配,从各待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;对异常日志集中任意两个目标异常日志的关键词特征进行第二相似度匹配,将同一异常日志集中,任意两者之间的第二相似度大于第二预设值的各目标异常日志划分至同一异常日志簇;根据各异常日志簇,确定与各异常日志簇一一对应的各异常业务;其中,目标异常日志的关键词特征,根据预设关键词特征库从待选异常日志中提取。本申请实施例提供的异常日志处理方法能够提高对异常日志的处理效率。

Description

异常日志处理方法及装置
技术领域
本申请涉及数据处理技术领域,具体涉及一种异常日志处理方法及装置。
背景技术
异常日志,是指向向用户的反馈报错信息,用于提示系统出现异常。目前,对于异常日志的处理方式,通常是针对每一条异常日志,定位其对应的异常业务。而随着业务的高速发展,业务规模越来越大,迭代速度越来越快,系统负责度越来越高,这导致各业务模块会产生大量的异常日志,且这些异常日志的记录通常较为零散,使得业务人员在根据异常日志定位异常业务时,需耗费大量的时间去查找每一条异常日志以进行异常业务的定位,导致异常日志的处理效率低。
发明内容
本申请旨在至少解决相关技术中存在的技术问题之一。为此,本申请提出一种异常日志处理方法,能够提高对异常日志的处理效率。
本申请还提出一种异常日志处理装置。
本申请还提出一种电子设备。
本申请还提出一种计算机可读存储介质。
根据本申请第一方面实施例的异常日志处理方法,包括:
对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
本申请实施例提供的异常日志处理方法,通过对各待选异常日志进行第一相似度匹配,以进行第一次分类,获取相似度任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集后,再根据各目标异常日志的关键词特征,对同一异常日志集内的各目标异常日志进行聚类,将同一异常日志集中,任意两者之间的第二相似度大于第二预设值的各目标异常日志划分至同一异常日志簇,实现对多个有相同特征的待选异常日志进行聚类,形成异常日志簇。最后,利用异常日志簇来获取与该异常日志簇对应的异常业务,从而能够将该异常日志簇对应的异常业务,作为该异常日志簇内的各异常日志对应的异常业务,从而使工作人员仅需获取到异常日志簇对应的异常业务,便可确定该异常日志簇中每一条异常日志对应的异常业务,无需针对每一条异常日志均进行对应的异常业务的定位处理,提高对异常日志的处理效率。
根据本申请的一个实施例,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集,包括:
根据各待选异常日志的初始特征,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的所述初始特征的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
其中,所述初始特征包括所述待选异常日志的字段长度。
根据本申请的一个实施例,对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇,包括:
获取所述目标异常日志的关键词特征中的各关键词以及各所述关键词在所述目标异常日志中的各位置信息;
根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,获取任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志组成同一异常日志簇。
根据本申请的一个实施例,根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,包括:
根据各所述关键词的第一预设权重,以及各所述位置信息的第二预设权重,对所述目标异常日志的各所述关键词和各所述位置信息进行加权,获取所述目标异常日志的关键词特征的特征值;
根据所述特征值,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配;
其中,所述第一预设权重大于所述第二预设权重。
根据本申请的一个实施例,所述第一预设权重与所述关键词在各所述待选异常日志中的出现频率呈正比。
根据本申请的一个实施例,还包括:
根据所述预设关键词特征库,从存储日志的日志库中,获取包含所述预设关键词特征库中任一关键词特征的各异常日志;
根据预设字段长度,从各异常日志中,获取字段长度大于所述预设字段长度的各所述待选异常日志。
根据本申请的一个实施例,根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务,包括:
根据所述异常日志簇中各所述目标异常日志的特征值,确定所述异常日志簇的特征向量;
将所述特征向量输入训练好的分类模型中,获取与所述特征向量对应的所述异常业务;
其中,所述分类模型根据各训练样本集的特征向量以及各所述异常业务训练得到,所述训练样本集包括多个所述第二相似度大于第二预设值的历史异常日志。
根据本申请第二方面实施例的异常日志处理装置,包括:
异常日志获取模块,用于对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集;
异常日志聚类模块,用于对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
异常日志处理模块,用于根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
根据本申请第三方面实施例的电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述任一实施例所述的异常日志处理方法。
根据本申请第四方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的异常日志处理方法。
根据本申请第五方面实施例的计算机程序产品,包括:所述计算机程序被处理器执行时实现如上述任一实施例所述的异常日志处理方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过对各待选异常日志进行第一相似度匹配,以进行第一次分类,获取相似度任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集后,再根据各目标异常日志的关键词特征,对同一异常日志集内的各目标异常日志进行聚类,将同一异常日志集中,任意两者之间的第二相似度大于第二预设值的各目标异常日志划分至同一异常日志簇,实现对多个有相同特征的待选异常日志进行聚类,形成异常日志簇。最后,利用异常日志簇来获取与该异常日志簇对应的异常业务,从而能够将该异常日志簇对应的异常业务,作为该异常日志簇内的各异常日志对应的异常业务,从而使工作人员仅需获取到异常日志簇对应的异常业务,便可确定该异常日志簇中每一条异常日志对应的异常业务,无需针对每一条异常日志均进行对应的异常业务的定位处理,提高对异常日志的处理效率。
进一步的,通过利用各待选异常日志的字段长度,对各待选异常日志进行第一相似度匹配,以将字段长度的相似度大于或等于第一预设值的各待选异常日志作为目标异常日志划分至同一异常日志集,从而利用各待选异常日志的字段长度对各待选异常日志进行初步聚类,使后续的聚类结果结合了异常日志的多个聚类维度,提高后续聚类的准确度。
进一步的,通过获取目标异常日志的关键词特征中的各关键词以及各关键词在目标异常日志中的各位置信息,并根据各目标异常日志的各关键词和各位置信息,来确定同一所述异常日志集中的各目标异常日志的第二相似度,以基于各目标异常日志之间的第二相似度来划分每个目标异常日志对应的异常日志簇,使得在进行日志聚类时考虑了关键词和关键词的位置信息,从而使目标异常日志的聚类结果更为准确。
进一步的,通过对关键词赋予更高的权重,使最终得到的目标异常日志的关键词特征的特征值更能体现目标异常日志的具体语义,从而进一步提高根据特征值进行聚类后得到的聚类结果的准确度。
进一步的,通过预设关键词特征库,先从日志库中获取各异常日志,再利用预设字段长度,从各异常日志中,筛选出字段长度大于预设字段长度的各异常日志作为各待选异常日志,从而确保得到的各待选异常日志为出现异常的日志,同时减少进行聚类的异常日志数量,提高聚类速度。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的异常日志处理方法的流程示意图;
图2是本申请实施例中对图1的异常日志处理方法的异常日志的聚类做进一步细化的流程示意图;
图3是本申请实施例对图2的异常日志聚类的日常日志的相似度匹配做进一步细化的流程示意图;
图4是本申请实施例提供的分类模型中输入层数据与输出层数据的对应关系示意图;
图5是本申请实施例提供的异常日志处理装置的结构示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面,将通过几个具体的实施例对本申请实施例提供的异常日志处理方法及装置进行详细介绍和说明。
在一实施例中,提供了一种异常日志处理方法,该方法应用于服务器,用于进行异常日志处理。其中,服务器可以是独立的服务器或者是多个服务器组成的服务器集群来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能采样点设备等基础云计算服务的云服务器。
如图1所示,本实施例提供的一种异常日志处理方法包括:
步骤101,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集;
步骤102,对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
步骤103,根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
通过对各待选异常日志进行第一相似度匹配,以进行第一次分类,获取相似度任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集后,再根据各目标异常日志的关键词特征,对同一异常日志集内的各目标异常日志进行聚类,将同一异常日志集中,任意两者之间的第二相似度大于第二预设值的各目标异常日志划分至同一异常日志簇,实现对多个有相同特征的待选异常日志进行聚类,形成异常日志簇。最后,利用异常日志簇来获取与该异常日志簇对应的异常业务,从而能够将该异常日志簇对应的异常业务,作为该异常日志簇内的各异常日志对应的异常业务,从而使工作人员仅需获取到异常日志簇对应的异常业务,便可确定该异常日志簇中每一条异常日志对应的异常业务,无需针对每一条异常日志均进行对应的异常业务的定位处理,提高对异常日志的处理效率。
在一实施例中,任意两个待选异常日志的第一相似度的确定,可以是将各待选异常日志中输入训练好的doc2vec模型,来获取各待选异常日志的句向量,然后通过余弦定理,来确定任意两个待选异常日志的句向量的距离,从而确定这两个待选异常日志的第一相似度。
考虑到日志的特点以及产生方式,针对同一异常业务的异常日志通常都具有同等长度的字段,因此在一实施例中,各异常待选异常日志的第一相似度匹配,还可以是根据各待选异常日志的初始特征,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的所述初始特征的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
其中,所述初始特征包括所述待选异常日志的字段长度。
在一实施例中,针对任一待选异常日志,可获取其每个字符,将其字符的数量作为其字段长度。示例性的,待选异常日志中存在10个字符,则其字段长度为10。或者,可基于词库对待选异常日志进行分词,根据分词后得到的词数量,来作为其字段长度。示例性的,待选异常日志中存在10个词,则其字段长度为10。
在确定每个待选异常日志的字段长度后,对任意两个待选异常日志根据字段长度进行匹配,若这两个待选异常日志的字段长度的第一相似度大于或等于第一预设值,则将这两个待选异常日志作为目标异常日志划分至同一异常日志集。
示例性的,第一预设值为100%,此时若两个待选异常日志的字段长度的第一相似度为100%,即两个待选异常日志的字段长度相同,则将这两个待选异常日志作为目标异常日志划分至同一异常日志集。
具体的,针对任一待选异常日志,可获取其每个字符组成字符集,然后根据任意两个字符集,确定这两个字符集之间的杰卡德距离,从而将这两个字符集之间的杰卡德距离,作为这两个字符集对应的两个待选异常日志的第一相似度。
在确定所有待选异常日志之间的第一相似度后,若两个待选异常日志的第一相似度大于或等于第一预设值,如0.8等,则将这两个待选异常日志作为目标异常日志划分至同一异常日志集,从而实现对所有待选异常日志的分类,得到多个异常日志集。
通过利用各待选异常日志的字段长度,对各待选异常日志进行第一相似度匹配,以将字段长度的相似度大于或等于第一预设值的各待选异常日志作为目标异常日志划分至同一异常日志集,从而利用各待选异常日志的字段长度对各待选异常日志进行初步聚类,使后续的聚类结果结合了异常日志的多个聚类维度,提高后续聚类的准确度。
为进一步提高后续聚类的准确度,在一实施例中,初始特征还可以包括待选异常日志输入训练好的doc2vec模型后获取到的句向量。此时,任意两个待选异常日志的第一相似度的确定,可以是根据这两个待选异常日志的句向量得到的句向量相似度,以及根据这两个待选异常日志的字段长度,得到字段长度相似度,然后将句向量相似度和字段长度相似度作为第一相似度。对应的,第一预设值可以是由两个预设值组成的集合(a,b),这两个预设值可分别为句向量相似度预设值和字段长度相似度预设值,如(0.8,1)。示例性的,假设集合(a,b)为(0.8,1),则,若两个待选异常日志的句向量相似度为0.8,且这两个待选异常日志的字段长度相同,则表示这两个待选异常日志的第一相似度大于或等于第一预设值,此时将这两个待选异常日志作为目标异常日志划分至同一异常日志集。
或者,初始特征还可以包括由待选异常日志的每个字符组成的字符集。此时,任意两个待选异常日志的第一相似度的确定,可以是根据这两个待选异常日志的字符集,得到杰卡德距离,以及根据这两个待选异常日志的字段长度,得到字段长度相似度,然后将杰卡德距离和字段长度相似度作为第一相似度。对应的,第一预设值可以是由两个预设值组成的集合(a,b),这两个预设值可分别为杰卡德距离预设值和字段长度相似度预设值,如(0.8,1)。示例性的,假设集合(a,b)为(0.8,1),则,若两个待选异常日志的杰卡德距离为0.8,且这两个待选异常日志的字段长度相同,则表示这两个待选异常日志的第一相似度大于或等于第一预设值,此时将这两个待选异常日志作为目标异常日志划分至同一异常日志集。
在一实施例中,在得到多个异常日志集后,针对任一异常日志集,根据关键词特征库中预先设置的关键词特征词条,对该异常日志集中任一目标异常日志进行模糊匹配,从而提取该目标异常日志的所有关键词,并将从该目标异常日志中提取到的所有关键词组成的关键词集,作为该目标异常日志的关键词特征。
在获取到各目标异常日志的关键词集后,将同一异常日志集中的任意两个目标异常日志的关键词集进行相似度匹配,如计算两个关键词集的杰卡德距离,从而确定这两个目标异常日志的第二相似度。若这两个目标异常日志的第二相似度大于第二预设值,如0.75,则将这两个目标异常日志划分至同一异常日志簇,从而得到所有目标异常日志的聚类结果。
为使目标异常日志的聚类结果更为准确,在一实施例中,如图2所示,对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇,包括:
步骤201,获取所述目标异常日志的关键词特征中的各关键词以及各所述关键词在所述目标异常日志中的各位置信息;
步骤202,根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,获取任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志组成同一异常日志簇。
在一实施例中,针对任一异常日志集,根据关键词特征库中预先设置的关键词特征词条,对该异常日志集中任一目标异常日志进行模糊匹配,提取该目标异常日志的各关键词,从而组成该目标异常日志的关键词集。然后针对任一关键词,确定其在该目标异常日志的位置信息,从而确定该目标异常日志的关键词集中每个关键词在该目标异常日志的位置信息,并将每个关键词的位置信息,组成该目标异常日志的位置信息集。
在得到目标异常日志的关键词集和位置信息集后,对于同一异常日志集中的两个目标异常日志,将这两个目标异常日志的关键词集进行相似度匹配,确定关键词集的关键词相似度,然后再将两个目标异常日志的位置信息集进行相似度匹配,确定位置信息集的位置相似度后,将关键词相似度和位置相似度进行平均加权,从而得到这两个目标异常日志的关键词特征的第二相似度。此时,若这两个目标异常日志的关键词特征的第二相似度大于第二预设值,则将这两个目标异常日志划分至同一异常日志簇。依次类推,从而实现对同一异常日志集中各目标异常日志的聚类。
通过获取目标异常日志的关键词特征中的各关键词以及各关键词在目标异常日志中的各位置信息,并根据各目标异常日志的各关键词和各位置信息,来确定同一所述异常日志集中的各目标异常日志的第二相似度,以基于各目标异常日志之间的第二相似度来划分每个目标异常日志对应的异常日志簇,使得在进行日志聚类时考虑了关键词和关键词的位置信息,从而使目标异常日志的聚类结果更为准确。
在一实施例中,如图3所示,根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,包括:
步骤301,根据各所述关键词的第一预设权重,以及各所述位置信息的第二预设权重,对所述目标异常日志的各所述关键词和各所述位置信息进行加权,获取所述目标异常日志的关键词特征的特征值;
步骤302,根据所述特征值,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配;
其中,所述第一预设权重大于所述第二预设权重。
考虑到聚类结果的准确度受关键词的影响较大,因此为进一步提高聚类结果的准确度,在一实施例中,目标异常日志中各关键词的第一预设权重,要大于位置信息的第二预设权重。此时,针对同一异常日志集中的任意两个目标异常日志,在得到其关键词相似度和位置相似度后,可根据各关键词的第一预设权重,对该关键词相似度进行加权平均,再根据各位置信息的第二预设权重,对该位置相似度进行加权平均,从而得到这两个目标异常日志的关键词特征的特征值。
其中,各位置信息的第二预设权重相同。
通过对关键词赋予更高的权重,使最终得到的目标异常日志的关键词特征的特征值更能体现目标异常日志的具体语义,从而进一步提高根据特征值进行聚类后得到的聚类结果的准确度。
在一实施例中,任一关键词的第一预设权重与其在各待选异常日志中的出现频率相关。具体的,关键词的第一预设权重与该关键词在各待选异常日志中的出现频率呈正比。即关键词在各待选异常日志中的出现频率越高,则该关键词的第一预设权重越高。
考虑到通常异常日志的字段长度相对固定,一些特别的异常日志的字段长度会相对较短,而这些异常日志通常不会出现多次,因此若将类特殊的异常日志加入聚类,会在无法得到更好的聚类结果的同时,影响聚类速度。为此,在一实施例中,对于各待选异常日志的获取,包括:
根据所述预设关键词特征库,从存储日志的日志库中,获取包含所述预设关键词特征库中任一关键词特征的各异常日志;
根据预设字段长度,从各异常日志中,获取字段长度大于所述预设字段长度的各所述待选异常日志。
在一实施例中,由于每个异常日志中均会有表示异常的关键词,因此利用预设关键词特征库中这些表示异常的关键词,对各日志库中的所有日志进行模糊匹配,从而从日志库中获取到各异常日志。
其中,各异常日志可以是符合行模式的异常日志。
在得到各异常日志后,根据预设字段长度S,对各异常日志进行筛选,从各异常日志中,剔除字段长度小于或等于预设字段长度S的各异常日志,从而筛选出字段长度大于预设字段长度S的各异常日志作为各待选异常日志。
通过预设关键词特征库,先从日志库中获取各异常日志,再利用预设字段长度,从各异常日志中,筛选出字段长度大于预设字段长度的各异常日志作为各待选异常日志,从而确保得到的各待选异常日志为出现异常的日志,同时减少进行聚类的异常日志数量,提高聚类速度。
在一实施例中,在完成各目标异常日志的聚类,得到各异常日志簇后,即可根据各异常日志簇,来确定每个异常日志簇对应的异常业务,从而减少需要进行异常业务定位处理的数据量,实现针对各异常日志对应的异常业务的快速定位。
在一实施例中,根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务,包括:
根据所述异常日志簇中各所述目标异常日志的特征值,确定所述异常日志簇的特征向量;
将所述特征向量输入训练好的分类模型中,获取与所述特征向量对应的所述异常业务;
其中,所述分类模型根据各训练样本集的特征向量以及各所述异常业务训练得到,所述训练样本集包括多个所述第二相似度大于第二预设值的历史异常日志。
在一实施例中,在得到各异常日志簇后,针对任一异常日志簇,可将异常日志簇中各目标异常日志的特征值进行向量化,以将该异常日志簇中各目标异常日志进行向量化后得到的各特征向量,组合为与该异常日志簇对应的特征向量,如:
F′=[(x1,w1),(x2,w2),……,(xk,wk)]
其中,F′表示异常日志簇的特征向量,(x1,w1)表示异常日志簇中第k个目标异常日志的特征向量。
在得到异常日志簇的特征向量后,将该特征向量输入基于SQM算法训练得到的分类模型中。其中,分类模型如图4所示,其输入层包括k个节点,与输入特征维度相同,输出层一共是X*Y个节点,排成矩阵形式,如果X=1或Y=1,则变为线性形式。其中,输入层的一个节点表示一个特征向量,输出层的一个节点表示一个异常业务。
在获取到异常日志簇的特征向量后,即可将异常日志簇的特征向量输入训练好的分类模型中,从而得到对应的异常业务。
下面对本申请提供的异常日志处理装置进行描述,下文描述的异常日志处理装置与上文描述的异常日志处理方法可相互对应参照。
在一实施例中,如图5所示,提供了一种异常日志处理装置,包括:
异常日志获取模块210,用于对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集;
异常日志聚类模块220,用于对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
异常日志处理模块230,用于根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
通过对各待选异常日志进行第一相似度匹配,以进行第一次分类,获取相似度任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集后,再根据各目标异常日志的关键词特征,对同一异常日志集内的各目标异常日志进行聚类,将同一异常日志集中,任意两者之间的第二相似度大于第二预设值的各目标异常日志划分至同一异常日志簇,实现对多个有相同特征的待选异常日志进行聚类,形成异常日志簇。最后,利用异常日志簇来获取与该异常日志簇对应的异常业务,从而能够将该异常日志簇对应的异常业务,作为该异常日志簇内的各异常日志对应的异常业务,从而使工作人员仅需获取到异常日志簇对应的异常业务,便可确定该异常日志簇中每一条异常日志对应的异常业务,无需针对每一条异常日志均进行对应的异常业务的定位处理,提高对异常日志的处理效率。
在一实施例中,异常日志获取模块210具体用于:
根据各待选异常日志的初始特征,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的所述初始特征的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
其中,所述初始特征包括所述待选异常日志的字段长度。
在一实施例中,异常日志聚类模块220具体用于:
获取所述目标异常日志的关键词特征中的各关键词以及各所述关键词在所述目标异常日志中的各位置信息;
根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,获取任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志组成同一异常日志簇。
在一实施例中,异常日志聚类模块220具体用于:
根据各所述关键词的第一预设权重,以及各所述位置信息的第二预设权重,对所述目标异常日志的各所述关键词和各所述位置信息进行加权,获取所述目标异常日志的关键词特征的特征值;
根据所述特征值,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配;
其中,所述第一预设权重大于所述第二预设权重。
在一实施例中,所述第一预设权重与所述关键词在各所述待选异常日志中的出现频率呈正比。
在一实施例中,异常日志聚类模块220还用于:
根据所述预设关键词特征库,从存储日志的日志库中,获取包含所述预设关键词特征库中任一关键词特征的各异常日志;
根据预设字段长度,从各异常日志中,获取字段长度大于所述预设字段长度的各所述待选异常日志。
在一实施例中,异常日志处理模块230具体用于:
根据所述异常日志簇中各所述目标异常日志的特征值,确定所述异常日志簇的特征向量;
将所述特征向量输入训练好的分类模型中,获取与所述特征向量对应的所述异常业务;
其中,所述分类模型根据各训练样本集的特征向量以及各所述异常业务训练得到,所述训练样本集包括多个所述第二相似度大于第二预设值的历史异常日志。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行异常日志处理方法,例如包括:
对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种存储介质,存储介质包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的异常日志处理方法,例如包括:
对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
另一方面,本申请实施例还提供一种处理器可读存储介质,处理器可读存储介质存储有计算机程序,计算机程序用于使处理器执行上述各实施例提供的方法,例如包括:
对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种异常日志处理方法,其特征在于,包括:
对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
2.根据权利要求1所述的异常日志处理方法,其特征在于,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集,包括:
根据各待选异常日志的初始特征,对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的所述初始特征的第一相似度大于或等于第一预设值的各目标异常日志划分至同一异常日志集;
其中,所述初始特征包括所述待选异常日志的字段长度。
3.根据权利要求1所述的异常日志处理方法,其特征在于,对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇,包括:
获取所述目标异常日志的关键词特征中的各关键词以及各所述关键词在所述目标异常日志中的各位置信息;
根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,获取任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志组成同一异常日志簇。
4.根据权利要求3所述的异常日志处理方法,其特征在于,根据各所述目标异常日志的各所述关键词和各所述位置信息,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配,包括:
根据各所述关键词的第一预设权重,以及各所述位置信息的第二预设权重,对所述目标异常日志的各所述关键词和各所述位置信息进行加权,获取所述目标异常日志的关键词特征的特征值;
根据所述特征值,对同一所述异常日志集中的各所述目标异常日志进行第二相似度匹配;
其中,所述第一预设权重大于所述第二预设权重。
5.根据权利要求4所述的异常日志处理方法,其特征在于,所述第一预设权重与所述关键词在各所述待选异常日志中的出现频率呈正比。
6.根据权利要求1所述的异常日志处理方法,其特征在于,还包括:
根据所述预设关键词特征库,从存储日志的日志库中,获取包含所述预设关键词特征库中任一关键词特征的各异常日志;
根据预设字段长度,从各异常日志中,获取字段长度大于所述预设字段长度的各所述待选异常日志。
7.根据权利要求1-6任意一项所述的异常日志处理方法,其特征在于,根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务,包括:
根据所述异常日志簇中各所述目标异常日志的特征值,确定所述异常日志簇的特征向量;
将所述特征向量输入训练好的分类模型中,获取与所述特征向量对应的所述异常业务;
其中,所述分类模型根据各训练样本集的特征向量以及各所述异常业务训练得到,所述训练样本集包括多个所述第二相似度大于第二预设值的历史异常日志。
8.一种异常日志处理装置,其特征在于,包括:
异常日志获取模块,用于对各待选异常日志进行第一相似度匹配,从各所述待选异常日志中,获取任意两者之间的第一相似度大于或等于第一预设值的各目标异常日志作为同一异常日志集;
异常日志聚类模块,用于对所述异常日志集中任意两个所述目标异常日志的关键词特征进行第二相似度匹配,将同一所述异常日志集中,任意两者之间的所述第二相似度大于第二预设值的各所述目标异常日志划分至同一异常日志簇;
异常日志处理模块,用于根据各所述异常日志簇,确定与各所述异常日志簇一一对应的各异常业务;
其中,所述目标异常日志的关键词特征,根据预设关键词特征库从所述待选异常日志中提取。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的异常日志处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的异常日志处理方法。
CN202211009085.0A 2022-08-22 2022-08-22 异常日志处理方法及装置 Pending CN115422000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211009085.0A CN115422000A (zh) 2022-08-22 2022-08-22 异常日志处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211009085.0A CN115422000A (zh) 2022-08-22 2022-08-22 异常日志处理方法及装置

Publications (1)

Publication Number Publication Date
CN115422000A true CN115422000A (zh) 2022-12-02

Family

ID=84198135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211009085.0A Pending CN115422000A (zh) 2022-08-22 2022-08-22 异常日志处理方法及装置

Country Status (1)

Country Link
CN (1) CN115422000A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981910A (zh) * 2023-03-20 2023-04-18 建信金融科技有限责任公司 处理异常请求的方法、装置、电子设备和计算机可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981910A (zh) * 2023-03-20 2023-04-18 建信金融科技有限责任公司 处理异常请求的方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111199474B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111507470A (zh) 一种异常账户的识别方法及装置
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN111190967B (zh) 用户多维度数据处理方法、装置及电子设备
CN116109121A (zh) 基于大数据分析的用户需求挖掘方法及系统
CN115422000A (zh) 异常日志处理方法及装置
Ying et al. FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection
CN114266255B (zh) 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN112711678A (zh) 数据解析方法、装置、设备及存储介质
CN115809853A (zh) 一种企业业务流程的配置优化方法、系统及存储介质
US20220156304A1 (en) Relationship discovery and quantification
CN111259117B (zh) 短文本批量匹配方法及装置
CN114896955A (zh) 数据报表加工方法、装置、计算机设备及存储介质
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN112953914A (zh) 一种dga域名检测分类方法及装置
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
US20230222358A1 (en) Artificial intelligence operations adaptive multi-granularity event grouping
CN111930545B (zh) Sql脚本处理方法、装置和服务器
CN114548300B (zh) 解释业务处理模型的业务处理结果的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination