CN113238922A - 一种日志分析方法、装置、电子设备及介质 - Google Patents

一种日志分析方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113238922A
CN113238922A CN202110612628.7A CN202110612628A CN113238922A CN 113238922 A CN113238922 A CN 113238922A CN 202110612628 A CN202110612628 A CN 202110612628A CN 113238922 A CN113238922 A CN 113238922A
Authority
CN
China
Prior art keywords
real
time
log
vector
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110612628.7A
Other languages
English (en)
Other versions
CN113238922B (zh
Inventor
戴鑫
张中维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Leading Technology Co Ltd
Original Assignee
Nanjing Leading Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Leading Technology Co Ltd filed Critical Nanjing Leading Technology Co Ltd
Priority to CN202110612628.7A priority Critical patent/CN113238922B/zh
Publication of CN113238922A publication Critical patent/CN113238922A/zh
Application granted granted Critical
Publication of CN113238922B publication Critical patent/CN113238922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种日志分析方法、装置、电子设备及介质。该方法包括:将实时日志中的标签进行数值化处理,得到实时向量;将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;根据相似度对比结果,确定对实时日志的分析结果。上述方案解决了目前的方案无法准确、快捷地对实时产生的少量日志进行分析,难以及时发现异常日志,时效性差的问题,从而通过将实时日志转换为实时向量,并通过实时向量与基准向量的相似度对比,实现了准确、快速地对不限数量的实时向量进行分析,及时发现异常日志,提高了日志分析的准确性和时效性。

Description

一种日志分析方法、装置、电子设备及介质
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种日志分析方法、装置、电子设备及介质。
背景技术
大数据在互联网企业和公共服务机构等多方面被大量运用,给生活带了方便和快捷的同时,也带来了数据泄露的安全隐患。对于存放大量数据的数据库,若被恶意攻击,可能会导致数据库中的数据泄露,威胁数据库的安全性。
目前,通过流量分析和安全规则的设定可以阻断部分数据库攻击,但是很多行为并不是大批量的操作,而目前的日志分析方案只能够针对大量的数据进行计算和分析发现异常日志,而无法对少量的日志进行快速识别和判定。
发明内容
本申请实施例提供一种日志分析方法、装置、电子设备及介质,以提高对日志分析的准确性和实时性。
在一个实施例中,本申请实施例提供了一种日志分析方法,该方法包括:
将实时日志中的标签进行数值化处理,得到实时向量;
将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
根据相似度对比结果,确定对实时日志的分析结果。
在另一个实施例中,本申请实施例还提供了一种日志分析装置,该装置包括:
实时向量确定模块,用于将实时日志中的标签进行数值化处理,得到实时向量;
相似度对比模块,用于将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
分析结果确定模块,用于根据相似度对比结果,确定对实时日志的分析结果。
在又一个实施例中,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请实施例任一项所述的日志分析方法。
在一个实施例中,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例中任一项所述的日志分析方法。
本申请实施例中,通过将实时日志中的标签进行数值化处理,得到实时向量,从而将日志内容转换为客观的数据,便于后续进行数学运算,提高日志分析的客观性和准确性。通过将所述实时向量与至少一个基准向量进行相似度对比,根据相似度对比结果,确定对实时日志的分析结果,从而客观地将实时向量与正常历史日志对应的向量进行对比,准确地判断实时向量是否与正常历史日志相似,进而判断实时向量是否为异常向量,实现了对不限数量的实时向量进行精确的分析,准确、及时的发现异常日志。
附图说明
图1为本申请一种实施例提供的日志分析方法的流程图;
图2为本申请另一实施例提供的日志分析方法的流程图;
图3为本申请又一实施例提供的日志分析方法的流程图;
图4为本申请又一实施例提供的日志分析方法的应用流程图;
图5为本申请一种实施例提供的日志分析装置的结构示意图;
图6为本申请一种实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
图1为本申请一种实施例提供的日志分析方法的流程图。本申请实施例提供的日志分析方法可适用于对产生的日志进行分析的情况。典型的,本申请实施例适用于对访问数据库产生的日志进行分析以及时发现异常日志的情况。该方法具体可以由日志分析装置执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在能够实现日志分析方法的电子设备中。参见图1,本申请实施例的方法具体包括:
S110、将实时日志中的标签进行数值化处理,得到实时向量。
其中,日志为记载日期、时间、使用者及动作等相关操作的描述,本申请实施例中的操作可以是对数据库的操作,实时日志可以是实时对数据库进行操作的过程中产生的日志,标签可以是对实时日志中的文本进行分词和格式分割得到的内容,在标准化日志中,可以使用多个标签对一个实时日志进行标注。因为标准化实时日志的格式统一,所以在分割之后标签数量基本固定。可以按照实际需要选择部分或者全部标签用于后续的运算和标注。示例性的,在实时日志“2017081711:07:18,ip-172-30-0-38,bob,192.168.1.102,15,46,QUERY,company,'UP DATE employees SET salary=salary*1.2WHERE emp_id=18236',1142”中,采用“,”将实时日志的内容分割开,将分割开的各个部分作为实时日志的标签,也就是,在上述的实时日志例子中包括标签“2017081711:07:18”、“ip-172-30-0-38”、“bob”、“192.168.1.102”、“15”、“46”、“QUERY”、“company”、“'UPDATE employees SETsalary=salary*1.2WHERE emp_id=18236'”、“1142”。在上述标签中,可以根据实际情况选择哪些标签可以用于后续的运算和标注,可以选择忽略哪些标签,不用于后续的运算和标注。对于忽略的标签可以不对其进行数值化处理。例如,其中的“ip-172-30-0-38”是服务器名,可以选择不作为计算标签,在数值化处理过程中直接将该标签去掉,不进行体现。在常见数据安全产品对数据库行为日志的标签如表1所示。
表1
Figure BDA0003096518850000051
示例性的,对实时日志进行数值化处理,将实时日志中的标签转化为数值形式,从而得到实时日志对应的实时向量,便于后续进行数学运算,以更加精准客观地对实时日志进行分析。在本申请实施例中,数值化处理的方式可以根据实际情况进行确定,只要是能够将实时日志中的标签转化为对应的数值,并且,在每一次对实时日志或者历史日志中的标签进行数值化处理时,处理方式统一即可,以提高转化后向量的参考性和一致性。
S120、将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量。
示例性的,至少一个基准向量可以是历史日志进行处理得到的正常历史日志对应的向量,至少一个基准向量可以根据历史日志的更新而进行及时更新,也可以周期性地根据历史日志对至少一个基准向量进行更新。由于至少一个基准向量为正常历史日志对应的向量,能够反映正常日志的数值特征,因此,可以至少一个基准向量为准,根据实时向量与至少一个基准向量的相似度对实时向量进行分析,从而判断实时向量的特征与至少一个实时向量的特征是否相似。
S130、根据相似度对比结果,确定对实时日志的分析结果。
示例性的,相似度对比结果可以反映实时向量的特征与至少一个基准向量的特征是否相似,判断实时向量的特征与正常历史向量的特征是否相似,进而确定实时向量是正常日志还是异常日志。如果实时向量和至少一个基准向量的相似度较高,例如大于预设相似度,则确定实时向量的特征符合正常历史日志的特征,实时向量对应的实时日志为正常日志。如果实时向量与至少一个基准向量的相似度较低,例如小于或等于预设相似度,则确定实时向量的特征不符合正常历史日志的特征,实时向量对应的实时日志为异常日志。上述方案的有益效果在于,由于实时向量和至少一个基准向量都是数值化的数据,直接进行数据之间的相似度对比,相对于单纯考量实时日志的内容判断实时日志是否为异常日志,本申请实施例的方案更具有客观性和精确性,通过量化的相似度值,精确、直观地确定实时向量与正常历史向量是否相似,进而确定实时日志是否为异常日志。另外,由于至少一个基准向量可以重复被调用进行相似度对比,因此,即使实时向量的数量较少,甚至是一条,也可以与至少一个基准向量进行相似度对比进而确定实时日志是否为异常日志,提高了日志分析的实时性。
本申请实施例中,通过将实时日志中的标签进行数值化处理,得到实时向量,从而将日志内容转换为客观的数据,便于后续进行数学运算,提高日志分析的客观性和准确性。通过将所述实时向量与至少一个基准向量进行相似度对比,根据相似度对比结果,确定对实时日志的分析结果,从而客观地将实时向量与正常历史日志对应的向量进行对比,准确地判断实时向量是否与正常历史日志相似,进而判断实时向量是否为异常向量,实现了对不限数量的实时向量进行精确的分析,准确、及时的发现异常日志。
图2为本申请另一实施例提供的日志分析方法的流程图。本申请实施例为对上述实施例的进一步优化,未在本申请实施例中详细描述的细节详见上述实施例。参见图2,本申请实施例提供的日志分析方法可以包括:
S210、基于标签与数值的转换方式,将所述实时日志表示为初始向量。
示例性的,可以预先确定标签与数值的转换方式,不同类型的标签可以对应不同的转换方式,针对性的确定不同类型标签与数值的转换方式。对于不同的标签,转换为不同的数值,以对不同的标签进行区分。将实时日志中的标签转换为数值,得到实时日志对应的初始向量。
在本申请实施例中,基于标签与数值的转换方式,将所述实时日志表示为初始向量,包括:若所述标签为第一类标签,则基于第一类标签与预设数值的关联关系,将所述实时日志中的第一类标签转换为关联的预设数值;其中,所述第一类标签包括文本内容标签、时间内容标签和操作安全性分级内容标签中的至少一种;若所述标签为第二类标签,则基于自然语言处理技术,将所述实时日志中的第二类标签转换为向量;其中,所述第二类标签为包括代码语句的标签;若所述标签为第三类标签,则基于第三类标签的数值范围与预设数值区间的对应关系,将所述实时日志中的第三类标签转换为预设数值区间中的对应数值;其中,第三类标签为包括数值内容的标签,所述预设数值区间根据第三类标签数值范围中的数值分布确定。
示例性的,可以预先针对第一类标签、第二类标签和第三类标签,确定与其对应的转换方式。例如,对于第一类标签,包括文本内容、时间内容和操作安全性分级内容的标签中的至少一种,则预先设置各个标签与预设数值的关联关系。预设数值可以根据实际情况进行设置,在此不做限定。例如,对于第一类标签的文本内容,文本内容包括用户名、操作行为和IP地址中的至少一项,则可以设置文本内容和预设数值的关联关系如表2所示。
表2
Figure BDA0003096518850000091
对于时间内容,可以设置时间内容和预设数值的关联关系如表3所示。
表3
预设数值 周标签 小时标签
0 周一 00:00-02:00
1 周二 02:00-04:00
2 周三 04:00-06:00
3 周四 06:00-08:00
4 周五 08:00-10:00
5 周六 10:00-12:00
6 周日 12:00-14:00
7 14:00-16:00
8 16:00-18:00
9 18:00-20:00
10 20:00-22:00
11 22:00-24:00
对于操作安全性分级内容,可以设置操作安全性分级内容和预设数值的关联关系如表4所示。
表4
Figure BDA0003096518850000101
对于第二类标签,即包括代码语句的标签,则可以基于自然语言处理技术,将代码语句转换为向量,例如,采用word2vce模型将代码语句转化为多维向量。在其他标签为一维向量,第二类标签转化为多维向量的情况下,可以通过补零操作,合并成多维向量。
对于第三类标签,即包括数值内容的标签,可以预先设置数值内容的数值范围与预设数值区间的对应关系,例如SQL语句的影响行数、执行时间等,一般是以数值进行表示,有可能存在部分数值达到较大值,例如几十万、几百万等,如果对于每一个标签的数值内容都设置与一个预设数值的对应关系,则会导致预设的对应关系数量较多,影响查询和存储效率。因此,在本申请实施例中,预先设置预设数值的数值区间,将标签的数值内容对应至该数值区间中。示例性的,假设设置数值区间为[0,1000],如果标签的数值内容为[0,1000]中的数值,则根据数值内容与数值区间中预设数值的一一对应关系,确定数值内容对应的预设数值,如果数值内容为[0,1000]以外的数值,则令数值内容对应的预设数值为一个固定的预设数值,例如对应1000。数值区间的设置方式可以根据标签的数值范围中的数值分布确定,例如泊松分布、指数分布等。示例性的,如果数量比较多的且集中的数值位于一个区间内,并且该区间的范围小于预设范围,则将该区间作为数值区间。示例性的,对于SQL语句的影响行数,一般情况下在1000条之内,会存在少量情况是上万、几十万甚至几百万条,例如,100个SQL语句的影响行数中88个影响行数位于[0,1000]范围中,仅有12个影响行数位于[0,1000]范围之外,并且[0,1000]位于预设范围之内,则将[0,1000]作为数值区间。
例如,对于实时日志数值化后得到的初始向量可以为[3,8,0,5,0,0,2,0,0]。
需要说明的是,上述表格和数据只是一种举例,并不是对预设数值的限制,可以根据实际情况确定对应的预设数值。
在预先确定不同类型的标签对应的转换方式后,根据实时日志中的标签的类型,确定该类标签的转换方式,再根据标签的具体内容,确定标签对应的数值。
S220、对所述初始向量进行归一化处理,并根据所述实时日志中标签的预设权重值,对归一化处理后的初始向量进行加权处理,得到实时向量。
在将实时日志转换为初始向量后,由于对标签的转换方式不同,因此各标签对应的数值大小、范围不一致,导致在不同标签的数值量纲不一致,如果不进行处理可能会影响数据分析的结果,所以在计算之前需要对初始向量进行归一化处理,例如可以采用z-score规范化方法对初始向量进行归一化。示例性的,对于初始向量[3,8,0,5,0,0,2,0,0],归一化处理后可以为[0.5,0.727,0,1,0,0,0.2,0,0],对于初始向量[3,5,0,1,2,0,2,2,1],归一化处理后可以为[0.5,0.455,0,0.33,0.2,0,0.2,0.2,1]。
在本申请实施例中,不同的标签在行为中产生的影响可能也不一致,因此可以对标签进行加权处理,以在向量表示中体现标签的影响大小。例如,操作行为、SQL语句影响条目、是否访问敏感数据、用户名等在行为确定中的影响较大,或者敏感度较高,则可以增加其权重,请求时间、来源IP地址、目标数据库、返回时长等在行为确定中的影响较小,则可以减小其权重。示例性的,对于归一化的初始向量[0.5,0.727,0,1,0,0,0.2,0,0],如果第四个标签在行为中影响较大,则可以增加第四个标签的权重,对其乘以一个大于1的系数,例如乘以2,得到[0.5,0.727,0,2,0,0,0.2,0,0]。对于归一化的初始向量[0.5,0.727,0,1,0,0,0.2,0,0],如果第七个标签在行为中影响较小,则可以减小第七个标签的权重,对其乘以一个小于1的系数,例如乘以0.5,得到[0.5,0.727,0,2,0,0,0.1,0,0]。
S230、分别计算实时向量与各基准向量的相似度,得到至少一个相似度值。
示例性的,对于一个实时向量,分别与每一个基准向量计算相似度值,得到至少一个相似度值。可以基于余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、对数似然相似度等计算方式计算相似度值。例如,基于余弦相似度计算实时向量与基准向量的相似度值为:
Figure BDA0003096518850000121
其中,A表示实时向量,B表示基准向量,Ai和Bi分别代表实时向量A和基准向量B的对应分量,n为向量分量的总数。因为实时向量和基准向量中不存在负值,所以相似度值similarity不会为负数,similarity取值范围为[0,1]。
S240、确定至少一个相似度值中的最大相似度值。
示例性的,从至少一个相似度值中确定最大相似度值,以根据最大相似度值确定实时日志的分析结果。例如,实时向量为:A=[0.5,0.455,0,0.66,0.2,0,0.2,0.4,0],至少一个基准向量包括:基准向量1:[0.5,0.364,0.1,0,0,0,0,0,0],基准向量2:[0.3,0.818,0.2,0.66,0,0,0.2,0,0],基准向量3:[0.4,0.636,0.2,1.23,0,0,0.2,0,0]。分别计算实时向量与各基准向量的相似度,得到至少一个相似度值为:0.6233554326054089,0.8304012496217652,0.8597548741592779,确定其中的最大相似度值为0.8597548741592779。
S250、根据所述最大相似度值,确定对实时日志的分析结果。
示例性的,如果最大相似度值较高,例如大于预设相似度,则确定实时向量的特征符合正常历史日志的特征,实时向量对应的实时日志为正常日志。如果最大相似度值较低,例如小于或等于预设相似度,则确定实时向量的特征不符合正常历史日志的特征,实时向量对应的实时日志为异常日志。
在本申请实施例中,根据所述最大相似度值,确定对实时日志的分析结果,包括:若所述最大相似度值位于预设相似度区间内,则基于预设相似度区间,将所述最大相似度值映射至区间[0,1]内,得到规范化相似度值;若所述规范化相似度值小于预设相似度阈值,则确定所述实时日志为异常日志。
示例性的,由于从至少一个相似度值中确定最大相似度值,因此最大相似度值不会为0,也就是最大相似度值的取值范围为(0,1]。根据相似度值的分布情况,例如泊松分布、指数分布等,确定预设相似度区间,例如[0.5,1],也就是默认最大相似度值应在预设相似度区间中,才为正常的值。确定从至少一个相似度值中确定的最大相似度值是否位于预设相似度区间内,如果最大相似度值位于预设相似度区间内,则进一步对最大相似度值进行规范化处理,将最大相似度值映射至区间[0,1]内。例如,加入预设相似度区间为[0.5,1],最大相似度值为0.6,则根据
Figure BDA0003096518850000141
可以确定x为0.2。预设相似度阈值可以根据实际情况进行设置,例如设置为0.8,如果规范化相似度值大于或等于0.8,则确定实时日志为正常日志,如果规范化相似度值小于0.8,则确定实时日志为异常日志。在规范化相似度值为0.2的情况下,由于小于预设相似度阈值0.8,因此可以确定实时日志为异常日志。为了更加形象直观地对实时日志进行分析,可以将规范化相似度值转化为异常评分,例如:S=(1-x)*100,其中S为异常评分,x为规范化相似度值,如果规范化相似度值为0.2,则异常评分为80分。如果设置异常评分阈值为20分,则确定异常评分80分大于20分,实时日志为异常日志。
本申请实施例中的技术方案,通过将实时日志转换为实时向量,并在数值化过程中进行归一化和加权处理,从而便于后续对量化的相同量纲的数据进行运算处理,通过最大相似度值,以通过量化的结果确定实时日志是否异常,提高了实时日志的客观性,并通过加权处理,更加明确了各个标签的影响,便于使实时向量更加明显地反映异常日志或正常日志的特征。
图3为本申请又一实施例提供的日志分析方法的流程图。本申请实施例为对上述实施例的进一步优化,未在本申请实施例中详细描述的细节详见上述实施例。参见图3,本申请实施例提供的日志分析方法可以包括:
S310、将历史日志中的标签进行数值化处理,得到历史向量;其中,对历史日志的标签进行数值化处理的过程和将实时日志中的标签进行数值化处理的过程相同。
示例性的,可以根据历史日志确定至少一个基准向量。可以周期性地根据当前已有的历史日志,确定至少一个基准向量,对至少一个基准向量进行更新。也可以在历史日志更新时,根据更新后的历史日志从新确定至少一个基准向量,对至少一个基准向量进行更新。将历史日志的标签进行数值化处理,得到历史向量的过程和将实时日志中的标签进行数值化处理的过程相同,可以参见上述实施例。
S320、对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量。
其中,聚类算法可以根据实际情况进行选取,例如可以为K-Medoids算法、PAM算法、CLARA算法、CLARANS算法等。通过最优K值的计算,得到一个最优的K值,再基于最优K值对历史向量进行聚类分析,将聚类簇中的历史向量作为至少一个基准向量。例如得到的一组基准向量:基准向量1:[0.5,0.364,0.1,0,0,0,0,0,0],基准向量2:[0.3,0.818,0.2,0.66,0,0,0.2,0,0],基准向量3:[0.4,0.636,0.2,1.23,0,0,0.2,0,0]。上述方案的有益效果在于,由于历史日志中大部分历史日志为正常历史日志,并且正常历史日志的特征相似,通过聚类可以准确筛选出特征相似的历史向量,滤除特征与大部分历史向量不相似的离群值,从而准确地确定历史向量中的正常历史向量对应的向量,作为至少一个基准向量,便于后续直接调用至少一个基准向量对实时向量进行分析评判,通过数据化的向量比较,提高了实时日志分析的准确性。并且由于存在正常历史向量的基准向量,因此通过将实时向量和基准向量进行相似度对比既可以对实时日志进行分析,因此不受实时日志数量的限制,即使少量的实时日志也可以进行精准实时分析。
S330、将实时日志中的标签进行数值化处理,得到实时向量。
S340、将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量。
S350、根据相似度对比结果,确定对实时日志的分析结果。
在本申请实施例中,对历史向量进行聚类之前,所述方法还包括:基于预设分类条件,对所述历史向量进行分类;针对于属于同一分类的历史向量,以及不属于任何分类的历史向量,执行对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量的步骤;将至少一个基准向量与对应的分类关联存储;相应地,将所述实时向量与至少一个基准向量进行相似度对比之前,还包括:根据对所述实时向量的分类结果,从关联存储的至少一个基准向量与对应分类中,确定所述实时向量所属分类对应的至少一个基准向量。
示例性的,为了提高对历史向量的聚类效率,可以预先对历史向量进行分类,例如,设置至少一个分类条件,根据各分类条件对历史向量进行分类,将满足同一分类条件的历史向量归为一个分类,将不满足任一分类条件的历史向量归为一个分类,针对各分类的历史向量进行聚类处理,得到各分类对应至少一个基准向量,并将至少一个基准向量与对应的分类关联存储。相应地,在对实时向量进行分析时,可以确定实时向量所属的分类,与关联存储的至少一个基准向量与对应的分类中的分类进行匹配,将匹配成功的分类对应的至少一个基准向量,作为该用于分析该实时向量的至少一个基准向量。如果实时向量的类型不属于任意可以确定的分类,则确定实时向量属于不满足任一分类条件的历史向量对应的分类,并将该分类对应的至少一个基准向量,作为该用于分析该实时向量的至少一个基准向量。基于上述方案,能够针对各个分类确定至少一个基准向量,提高了基准向量确定效率和准确度,进而提高了实时日志分析的准确度。
图4为本申请又一实施例提供的日志分析方法的应用流程图,其中的日志样本即为历史日志,基准点即为至少一个基准向量,用户行为产生的标准化日志为实时日志,筛选条件为分类条件。
本申请实施例中的上述方案,通过将历史日志中的标签进行数值化处理,得到历史向量;对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量,从而为实时日志的分析提供了一个量化精确的评判标准,以便于基于该标准确定实时日志是否为异常日志,并且使实时日志的分析不受实时日志数量的限制,无论实时日志的数量为多少,均可分别与至少一个基准向量进行相似度对比确定实时日志是否为异常日志提高了日志分析的实时性。
图5为本申请一种实施例提供的日志分析装置的结构示意图。该装置可适用于对产生的日志进行分析的情况。典型的,本申请实施例适用于对访问数据库产生的日志进行分析以及时发现异常日志的情况。该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备中。参见图5,该装置具体包括:
实时向量确定模块410,用于将实时日志中的标签进行数值化处理,得到实时向量;
相似度对比模块420,用于将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
分析结果确定模块430,用于根据相似度对比结果,确定对实时日志的分析结果。
在本申请实施例中,实时向量确定模块410,包括:
初始向量表示单元,用于基于标签与数值的转换方式,将所述实时日志表示为初始向量;
处理单元,用于对所述初始向量进行归一化处理,并根据所述实时日志中标签的预设权重值,对归一化处理后的初始向量进行加权处理,得到实时向量。
在本申请实施例中,初始向量表示单元,具体用于:
若所述标签为第一类标签,则基于第一类标签与预设数值的关联关系,将所述实时日志中的第一类标签转换为关联的预设数值;其中,所述第一类标签包括文本内容标签、时间内容标签和操作安全性分级内容标签中的至少一种;
若所述标签为第二类标签,则基于自然语言处理技术,将所述实时日志中的第二类标签转换为向量;其中,所述第二类标签为包括代码语句的标签;
若所述标签为第三类标签,则基于第三类标签的数值范围与预设数值区间的对应关系,将所述实时日志中的第三类标签转换为预设数值区间中的对应数值;其中,第三类标签为包括数值内容的标签,所述预设数值区间根据第三类标签数值范围中的数值分布确定。
在本申请实施例中,相似度对比模块420,包括:
计算单元,用于分别计算实时向量与各基准向量的相似度,得到至少一个相似度值;
相应地,分析结果确定模块430,包括:
最大相似度确定单元,用于确定至少一个相似度值中的最大相似度值;
分析单元,用于根据所述最大相似度值,确定对实时日志的分析结果。
在本申请实施例中,最大相似度确定单元,具体用于:
若所述最大相似度值位于预设相似度区间内,则基于预设相似度区间,将所述最大相似度值映射至区间[0,1]内,得到规范化相似度值;
若所述规范化相似度值小于预设相似度阈值,则确定所述实时日志为异常日志。
在本申请实施例中,所述装置还包括:
历史向量确定模块,用于将历史日志中的标签进行数值化处理,得到历史向量;其中,对历史日志的标签进行数值化处理的过程和将实时日志中的标签进行数值化处理的过程相同;
基准向量确定模块,用于对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量。
在本申请实施例中,所述装置还包括:
分类模块,用于对历史向量进行聚类之前基于预设分类条件,对所述历史向量进行分类;
聚类模块,用于针对于属于同一分类的历史向量,以及不属于任何分类的历史向量,执行对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量的步骤;
关联存储模块,用于将至少一个基准向量与对应的分类关联存储;
相应地,所述装置还包括:
基准向量获取模块,用于将所述实时向量与至少一个基准向量进行相似度对比之前,根据对所述实时向量的分类结果,从关联存储的至少一个基准向量与对应分类中,确定所述实时向量所属分类对应的至少一个基准向量。
本申请实施例所提供的日志分析装置可执行本申请任意实施例所提供的日志分析方法,具备执行方法相应的功能模块和有益效果。
图6为本申请一种实施例提供的电子设备的结构示意图。图6示出了适于用来实现本申请实施例的示例性电子设备512的框图。图6显示的电子设备512仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备512可以包括:一个或多个处理器516;存储器528,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器516执行,使得所述一个或多个处理器516实现本申请实施例所提供的日志分析方法,包括:
将实时日志中的标签进行数值化处理,得到实时向量;
将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
根据相似度对比结果,确定对实时日志的分析结果。
电子设备512的组件可以包括但不限于:一个或多个处理器516,存储器528,连接不同设备组件(包括存储器528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,处理型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备512典型地包括多种计算机设备可读存储介质。这些存储介质可以是任何能够被电子设备512访问的可用存储介质,包括易失性和非易失性存储介质,可移动的和不可移动的存储介质。
存储器528可以包括易失性存储器形式的计算机设备可读存储介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。电子设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机设备存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁存储介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块542包括但不限于操作设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本申请所描述的实施例中的功能和/或方法。
电子设备512也可以与一个或多个外部设备514和/或显示器524通信,还可与一个或者多个使得用户能与该电子设备512交互的设备通信,和/或与使得该电子设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,电子设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器520通过总线518与电子设备512的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID设备、磁带驱动器以及数据备份存储设备等。
处理器516通过运行存储在存储器528中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的一种日志分析方法。
本申请一种实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行日志分析方法,包括:
将实时日志中的标签进行数值化处理,得到实时向量;
将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
根据相似度对比结果,确定对实时日志的分析结果。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行设备、装置或者器件使用或者与其结合使用。
计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行设备、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种日志分析方法,其特征在于,所述方法包括:
将实时日志中的标签进行数值化处理,得到实时向量;
将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
根据相似度对比结果,确定对实时日志的分析结果。
2.根据权利要求1所述的方法,其特征在于,将实时日志中的标签进行数值化处理,得到实时向量,包括:
基于标签与数值的转换方式,将所述实时日志表示为初始向量;
对所述初始向量进行归一化处理,并根据所述实时日志中标签的预设权重值,对归一化处理后的初始向量进行加权处理,得到实时向量。
3.根据权利要求2所述的方法,其特征在于,基于标签与数值的转换方式,将所述实时日志表示为初始向量,包括:
若所述标签为第一类标签,则基于第一类标签与预设数值的关联关系,将所述实时日志中的第一类标签转换为关联的预设数值;其中,所述第一类标签包括文本内容标签、时间内容标签和操作安全性分级内容标签中的至少一种;
若所述标签为第二类标签,则基于自然语言处理技术,将所述实时日志中的第二类标签转换为向量;其中,所述第二类标签为包括代码语句的标签;
若所述标签为第三类标签,则基于第三类标签的数值范围与预设数值区间的对应关系,将所述实时日志中的第三类标签转换为预设数值区间中的对应数值;其中,第三类标签为包括数值内容的标签,所述预设数值区间根据第三类标签数值范围中的数值分布确定。
4.根据权利要求1所述的方法,其特征在于,将所述实时向量与至少一个基准向量进行相似度对比,包括:
分别计算实时向量与各基准向量的相似度,得到至少一个相似度值;
相应地,根据相似度对比结果,确定对实时日志的分析结果,包括:
确定至少一个相似度值中的最大相似度值;
根据所述最大相似度值,确定对实时日志的分析结果。
5.根据权利要求4所述的方法,其特征在于,根据所述最大相似度值,确定对实时日志的分析结果,包括:
若所述最大相似度值位于预设相似度区间内,则基于预设相似度区间,将所述最大相似度值映射至区间[0,1]内,得到规范化相似度值;
若所述规范化相似度值小于预设相似度阈值,则确定所述实时日志为异常日志。
6.根据权利要求1所述的方法,其特征在于,至少一个基准向量的确定过程包括:
将历史日志中的标签进行数值化处理,得到历史向量;其中,对历史日志的标签进行数值化处理的过程和将实时日志中的标签进行数值化处理的过程相同;
对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量。
7.根据权利要求6所述的方法,其特征在于,对历史向量进行聚类之前,所述方法还包括:
基于预设分类条件,对所述历史向量进行分类;
针对于属于同一分类的历史向量,以及不属于任何分类的历史向量,执行对历史向量进行聚类,并将得到的聚类簇中的历史向量作为至少一个基准向量的步骤;
将至少一个基准向量与对应的分类关联存储;
相应地,将所述实时向量与至少一个基准向量进行相似度对比之前,还包括:
根据对所述实时向量的分类结果,从关联存储的至少一个基准向量与对应分类中,确定所述实时向量所属分类对应的至少一个基准向量。
8.一种日志分析装置,其特征在于,所述装置包括:
实时向量确定模块,用于将实时日志中的标签进行数值化处理,得到实时向量;
相似度对比模块,用于将所述实时向量与至少一个基准向量进行相似度对比;其中,至少一个基准向量为根据历史日志确定的正常历史日志对应的向量;
分析结果确定模块,用于根据相似度对比结果,确定对实时日志的分析结果。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的日志分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的日志分析方法。
CN202110612628.7A 2021-06-02 2021-06-02 一种日志分析方法、装置、电子设备及介质 Active CN113238922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110612628.7A CN113238922B (zh) 2021-06-02 2021-06-02 一种日志分析方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110612628.7A CN113238922B (zh) 2021-06-02 2021-06-02 一种日志分析方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113238922A true CN113238922A (zh) 2021-08-10
CN113238922B CN113238922B (zh) 2022-08-26

Family

ID=77136590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110612628.7A Active CN113238922B (zh) 2021-06-02 2021-06-02 一种日志分析方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113238922B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610881A (zh) * 2022-03-02 2022-06-10 京东科技信息技术有限公司 应用日志分析方法、装置、设备和存储介质
CN115914052A (zh) * 2022-10-28 2023-04-04 京东科技信息技术有限公司 域名健康状况的检测方法和装置
CN116089949A (zh) * 2023-02-02 2023-05-09 安芯网盾(北京)科技有限公司 一种针对Java web应用的拖库攻击行为检测方法
CN117113259A (zh) * 2023-10-19 2023-11-24 华夏天信智能物联(大连)有限公司 用于安全隐患预测的煤矿状态数据处理方法及系统
CN117522349A (zh) * 2024-01-04 2024-02-06 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000806A (zh) * 2020-08-25 2020-11-27 携程旅游信息技术(上海)有限公司 异常日志监控分析方法、系统、设备及存储介质
CN112612887A (zh) * 2020-12-25 2021-04-06 北京天融信网络安全技术有限公司 日志处理方法、装置、设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000806A (zh) * 2020-08-25 2020-11-27 携程旅游信息技术(上海)有限公司 异常日志监控分析方法、系统、设备及存储介质
CN112612887A (zh) * 2020-12-25 2021-04-06 北京天融信网络安全技术有限公司 日志处理方法、装置、设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610881A (zh) * 2022-03-02 2022-06-10 京东科技信息技术有限公司 应用日志分析方法、装置、设备和存储介质
CN115914052A (zh) * 2022-10-28 2023-04-04 京东科技信息技术有限公司 域名健康状况的检测方法和装置
CN115914052B (zh) * 2022-10-28 2024-05-17 京东科技信息技术有限公司 域名健康状况的检测方法和装置
CN116089949A (zh) * 2023-02-02 2023-05-09 安芯网盾(北京)科技有限公司 一种针对Java web应用的拖库攻击行为检测方法
CN116089949B (zh) * 2023-02-02 2023-07-21 安芯网盾(北京)科技有限公司 一种针对Java web应用的拖库攻击行为检测方法
CN117113259A (zh) * 2023-10-19 2023-11-24 华夏天信智能物联(大连)有限公司 用于安全隐患预测的煤矿状态数据处理方法及系统
CN117113259B (zh) * 2023-10-19 2023-12-22 华夏天信智能物联(大连)有限公司 用于安全隐患预测的煤矿状态数据处理方法及系统
CN117522349A (zh) * 2024-01-04 2024-02-06 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质
CN117522349B (zh) * 2024-01-04 2024-03-29 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质

Also Published As

Publication number Publication date
CN113238922B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN113238922B (zh) 一种日志分析方法、装置、电子设备及介质
US20220188708A1 (en) Systems and methods for predictive coding
CN111343161B (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CA2846330C (en) Computer-implemented systems and methods for comparing and associating objects
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN108491875A (zh) 一种数据异常检测方法、装置、设备及介质
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN111242387A (zh) 一种人才离职预测方法、装置、电子设备及存储介质
CN112364145A (zh) 一种工单处理方法、装置、电子设备及存储介质
CN113469857A (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN112948396A (zh) 数据存储方法、装置、电子设备及存储介质
CN110543996A (zh) 一种职位薪资评估方法、装置、服务器和存储介质
CN115189963A (zh) 异常行为检测方法、装置、计算机设备及可读存储介质
CN110928893A (zh) 一种标签查询方法、装置、设备和存储介质
GB2603594A (en) Maintenance of a data glossary
CN110807082B (zh) 质量抽检项目确定方法、系统、电子设备及可读存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN113780675B (zh) 一种消耗预测方法、装置、存储介质及电子设备
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN113032564B (zh) 特征提取方法、装置、电子设备以及存储介质
CN111400282B (zh) 数据处理策略调整方法、装置、设备及存储介质
CN109977992B (zh) 电子装置、批量注册行为的识别方法和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant