CN112632000A - 日志文件聚类方法、装置、电子设备和可读存储介质 - Google Patents

日志文件聚类方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN112632000A
CN112632000A CN202011643826.1A CN202011643826A CN112632000A CN 112632000 A CN112632000 A CN 112632000A CN 202011643826 A CN202011643826 A CN 202011643826A CN 112632000 A CN112632000 A CN 112632000A
Authority
CN
China
Prior art keywords
log
vector
clustering
target
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011643826.1A
Other languages
English (en)
Other versions
CN112632000B (zh
Inventor
赵旭
王卓
周晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011643826.1A priority Critical patent/CN112632000B/zh
Publication of CN112632000A publication Critical patent/CN112632000A/zh
Application granted granted Critical
Publication of CN112632000B publication Critical patent/CN112632000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Abstract

本申请提供了一种日志文件聚类方法、装置、电子设备和可读存储介质,其中,该方法包括:对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;对所述待聚类日志集进行解析,以确定出勿连约束集合;基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,能够提高日志的聚类准确性。

Description

日志文件聚类方法、装置、电子设备和可读存储介质
技术领域
本申请涉及日志数据处理领域,具体而言,涉及一种日志文件聚类方法、装置、电子设备和可读存储介质。
背景技术
目前关于日志的聚类方式一般是采用无监督的日志解析方法,通过提取日志中的关键词(Log Keywords Extraction)和日志签名(LogSignature)等信息为日志典型代表,然后,采用聚类技术将日志进行分类,以组成不同的日志簇。但是由于未对日志进行监督,可能会导致日志的分类存在遗漏。
发明内容
本申请的目的在于提供一种日志文件聚类方法、装置、电子设备和可读存储介质,能够提高日志的聚类效率和聚类准确性。
第一方面,本发明提供一种日志文件聚类方法,包括:
对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;
对所述待聚类日志集进行解析,以确定出勿连约束集合;
基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
在可选的实施方式中,所述方法还包括:
将所述分类结果中的目标类中的日志簇分成多段日志集,所述目标类为所述分类结果中的任意一类;
从所述多段日志集中筛选出目标日志集,所述目标日志集为所述目标类的日志样本集。
在可选的实施方式中,所述从所述多段日志集中筛选出目标日志集,包括:
计算所述多段日志集中的每段日志集的信息熵;
根据每段日志集的所述信息熵确定出目标日志集。
在上述实施方式中,还可以多分类后的日志进行筛选,从而可以形成样本更少的日志分类,以选出更能够代表对应分类的日志。以为人工观察日志提供样本,且能够减少人工所需观察的日志样本的数量。
在可选的实施方式中,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:
从所述向量集中随机抽取第一数量的初始中心向量;
计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量;
根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果,所述分类结果包含第一数量项分类。
在可选的实施方式中,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:
基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果,每一项初始分类结果对应的分类项数不同;
使用聚类评价算法计算每一项初始分类结果对应的聚类指数;
根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。
在可选的实施方式中,所述使用聚类评价算法计算每一项初始分类结果对应的聚类指数,包括:
使用DBI聚类评价算法计算每一项初始分类结果对应的聚类指数。
在上述实施方式中,可以对待聚类日志进行多重聚类,得到多项初始分类结果,再从多项初始分类结果中选出聚类效果更好的分类结果,可以使分类结果更加准确,更能够表征待聚类日志集的日志分布。
在可选的实施方式中,所述对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,包括:
计算目标日志的各个词对应的词向量,所述目标日志为待聚类日志中的任意一条日志;
根据所述各个词对应的词向量计算所述目标日志的日志向量。
在上述实施方式中,针对每一条日志,可以先计算日志中的一个词的词向量,然后基于词向量计算日志向量,可以不忽略掉日志中的单个词的内容,使确定出的日志向量能够更好地、更准确地表达该日志。
第二方面,本发明提供一种日志文件聚类装置,包括:
计算模块,用于对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;
确定模块,用于对所述待聚类日志集进行解析,以确定出勿连约束集合;
聚类模块,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
第三方面,本发明提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。
本申请实施例的有益效果是:采用半监督的聚类方式对日志进行聚类,由于将勿连约束集合作为分类基础,相对于现有的无监督聚类,本申请实施例提供的半监督聚类方式可以使确定出的分类结果更加的准确,且不需要人工进行日志标注,也能够提高日志聚类分析的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图。
图2为本申请实施例提供的日志文件聚类方法的流程图。
图3为本申请实施例提供的日志文件聚类方法的步骤203的详细流程图。
图4为本申请实施例提供的日志文件聚类方法的步骤203的另一流程图。
图5为本申请实施例提供的日志文件聚类方法的另一流程图。
图6为本申请实施例提供的日志文件聚类方法的步骤205的详细流程图。
图7为本申请实施例提供的日志文件聚类装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
由于系统日志通常是无结构的文本数据,在使用数据挖掘算法对系统日志建立模型训练之前,需要使用日志解析算法将原始的日志数据结构化。一般是通过解析,从日志消息部分中提取常量部分和变量部分,并将每一条日志转化为一个特定的事件或进行持久化入库。
目前的日志解析的方式一般包括正则表达式匹配方式、基于源代码的方式,或者基于规则式的方式,这些方法对专家经验知识依赖性强,且不容易解析出非逻辑错误的日志,当新的日志格式出现时,解析规则容易变得不适用。
因此,针对上述日志解析方式存在的不足,可以通过无监督的方式对日志进行聚类分析,但是无监督的聚类效果有所欠缺。
另外,也可以采用有监督的聚类方式对日志进行聚类分析,但是上述方式一方面需要人工标注,耗费人力,另一方面标注方法通常是针对报错的情况分类的,比如解析key-Value错误,key-value不符合格式等,人工分类容易遗漏错误。
基于上述研究,本申请实施例提供一种日志文件聚类方法,采用勿连约束集合进行半监督的聚类处理,既能够解决无监督的聚类效果有所欠缺的问题,还不需要人工标注。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的日志文件聚类方法的电子设备进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述日志文件聚类方法的实现过程。
实施例二
请参阅图2,是本申请实施例提供的日志文件聚类方法的流程图。下面将对图2所示的具体流程进行详细阐述。
步骤201,对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集。
本实施例中,每一条日志可以对应一个日志向量,该向量集中的日志向量的数量可以与待聚类日志集中的日志数量相同。
在一种实施方式中,针对待聚类日志中的目标日志,可以先计算目标日志的各个词对应的词向量,然后根据所述各个词对应的词向量计算所述目标日志的日志向量。该目标日志为待聚类日志中的任意一条日志。
可选地,可以将目标日志的各个词对应的词向量的均值作为日志向量。
可选地,可以使用word2vector计算目标日志的各个词对应的词向量。
示例性地,该向量集可以表示为D=[x1,x2,x3,…,xn]。后面以向量集以D进行描述。
步骤202,对所述待聚类日志集进行解析,以确定出勿连约束集合。
可选地,可以对待聚类日志集中的各个日志进行解析,以确定各个日志中的勿连关系。
任意两条日志为勿连关系,则表示两条日志是不是同一分类的两条日志。
该勿连约束集合中可以包括多个元素。每一个元素可以包括一对具有勿连关系的日志。
示例性地,该勿连约束集合可以表示为C=[(l1,l2),(l3,l4),(l5,l6),…],其中,l1和l2为不是同一分类的两条日志,l3和l4为不是同一分类的两条日志,l5和l6为不是同一分类的两条日志。
示例性地,可以预先设定勿连规则,根据该勿连规则确定出待聚类日志集中的各个日志是不是勿连关系。
示例性地,根据预设设定勿连规则对待聚类日志集中的日志进行解析,将解析通过与解析未通过的两条日志加入勿连约束集合。
在一个实例中,预先设定的勿连规则可以是日志中存在空格,例如,针对第一条日志的解析结果是存在空格,则解析通过,针对第二条日志的解析结果是不存在空格,则解析未通过。
可以知道的是,上述的预先设定的勿连规则可以根据使用场景设置,不同的使用场景对应的预先设定的勿连规则也可以不同。
可选地,可以根据预先设定的勿连规则确定出用于解析待聚类日志的解析代码。通过该解析代码对待聚类日志集中的各条日志进行解析,以确定出勿连约束集合。
步骤203,基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
在一实施方式中,如图3所示,步骤203可以包括步骤2031至步骤2033。
步骤2031,从所述向量集中随机抽取第一数量的初始中心向量。
该第一数量可以是当前需要对待聚类日志集分类的数量。
示例性地,该第一数量的初始中心向量可以作为第一数量的簇的中心向量。
示例性地,第一数量可以表示为ki,则从D=[x1,x2,x3,...,xn]中筛选出ki个日志向量,作为初始中心向量。例如,筛选出的ki个初始中心向量可以表示为μ=[μ123,...,μki]。
步骤2032,计算目标向量与各个所述初始中心向量的距离。
目标向量为所述向量集中的任意一个向量。
计算向量集中的日志向量xi与各个初始中心向量的距离。
步骤2033,根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果。
该分类结果包含第一数量项分类。
在一种实施方式中,当该目标向量与目标簇中的各个日志向量均不受该勿连约束集合的限定的情况下,将该目标向量写入该目标簇中。该目标簇为该目标向量距离最近的初始中心向量对应的簇。
在一个实例中,若计算向量集中的日志向量xi与各个初始中心向量中的初始中心向量μj的距离最小,则判断日志向量xi对应的日志与第j个簇中的各个日志向量对应日志是否满足勿连约束集合约束的情况,若日志向量xi对应的日志与第j个簇中的各个日志向量对应日志不满足勿连约束集合约束的情况,则将日志向量xi计入第j个簇中。
示例性地,若日志向量xi对应的日志与第j个簇中的各个日志向量对应日志不存在勿连关系,则表示日志向量xi对应的日志与第j个簇中的各个日志向量对应日志满足勿连约束集合约束的情况。
在一个实例中,若计算向量集中的日志向量xi与各个初始中心向量中的初始中心向量μj的距离最小,且日志向量xi对应的日志与第j个簇中的各个日志向量对应日志满足勿连约束集合约束的情况,则不对日志向量xi进行处理。
将向量集中的所有日志向量进行步骤2032和步骤2033的处理,则可以得到ki个日志簇,以形成具有ki个日志簇的分类结果。
可选地,针对ki个日志簇中任意一个日志簇,计算该日志簇中的各个向量的平均值,作为该日志簇的中心向量。示例性地,以第j个日志簇为例,第j个日志簇的中心向量可以表示为:
Figure BDA0002876492520000101
其中,μj表示第j个日志簇的中心向量,Cj表示第j个日志簇,x表示日志簇Cj中的其中一个日志向量。
在一实施方式中,如图4所示,步骤203可以包括步骤2034至步骤2036。
步骤2034,基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果。
每一项初始分类结果对应的分类项数不同。
步骤a,从所述向量集中随机抽取指定数量的初始中心向量。
该指定数量可以是当前需要对待聚类日志集初始分类的数量。
示例性地,可以预先设置有候选集分类簇集合LK=[K1,K2...Km]。该指定数量可以是LK=[K1,K2...Km]中任意一个候选集分类簇集合中的任意一个分类数量。
步骤b,计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量。
步骤c,根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的初始分类结果。
该初始分类结果包含指定数量项分类。重复执行步骤a至步骤c则可以得到分类数量为k1、k2、k3、...、km等不同分类数量的初始分类结果。
关于步骤a至步骤c的实现过程与步骤2031至步骤2033的过程相似,关于步骤a至步骤c的实现过程可以参阅步骤2031至步骤2033中的描述,在此不再赘述。
步骤2035,使用聚类评价算法计算每一项初始分类结果对应的聚类指数。
步骤2036,根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。
在一种实施方式中,步骤2036可以被实施为:使用DBI(Davies-Boulding)聚类评价算法计算每一项初始分类结果对应的聚类指数。
示例性地,基于Davies-Boulding聚类评价算法计算聚类指数:
C={C1,C2,C3,...,Ck1};
Figure BDA0002876492520000111
Figure BDA0002876492520000112
Figure BDA0002876492520000113
其中,C1、C2、C3、...、Ck1分别为分类数量为k1的初始分类结果其中的一个初始分类结果中的各项日志簇对应的日志向量集;DBI表示初始分类结果对应的聚类指数,μi分别表示分类数量为k1的初始分类结果中的第i个日志簇当前的中心向量,avg表示计算平均值,dist表示计算距离,xi,xj分别j表示一日志集中的其中一个日志向量。
示例性地,该dist所计算的距离可以是余弦距离、欧几里得距离等。
在一可选的实施方式中,可以将聚类指数最小的初始分类结果作为分类结果。
例如,分类数量为k的初始分类结果的聚类指数最小,则可以将分类数量为kd的初始分类结果作为分类结果。
可选地,还可以对分类结果对应的各类日志进行筛选,从而可以使每一类日志集中的日志数量更少。
如图5所示,日志文件聚类方法还可以包括步骤204和步骤205。
步骤204,将所述分类结果中的目标类中的日志簇分成多段日志集。
该目标类为待聚类日志集的分类结果中的任意一类。
可选地,可以将目标类中的日志簇均等地分成多段日志集。
可选地,也可以将目标类中的日志簇不均等地分成多段日志集。
在本实施例中,每个日志簇的分段数量可以按照需求设置,本实施例不以日志簇的分段数量为限。示例性地,每个日志簇的分段数量可以根据该日志簇的日志数量进行确定。例如,日志簇中的日志数量越大,对应的分段数量也可以越大。
步骤205,从所述多段日志集中筛选出目标日志集。
目标日志集为所述目标类的日志样本集。该日志样本用于供用户使用。
可选地,可以根据每段日志集的日志表达力确定出目标日志集。示例性地,可以通过计算每段日志集中的信息熵,以确定每段日志集的日志表达力。
本实施例中,在每一类日志簇中均筛选出一日志集,作为日志样本集。
通过对日志集的筛选,可以确定出日志样本数量更少,表达力更强的日志集。
在一实施方式中,可以通过计算每段日志集中的信息熵确定出目标日志集,如图6所示,步骤205可以包括步骤2051和步骤2052。
步骤2051,计算所述多段日志集中的每段日志集的信息熵。
示例性地,计算每段日志集的信息熵的计算公式可以如下所示:
Figure BDA0002876492520000121
Figure BDA0002876492520000122
其中,di表示日志集X中的各个日志向量与中心向量的距离,pi表示各个日志向量对应的概率数据,X表示其中一段日志集,m表示日志集X中的日志向量的数量,H(X)表示日志集X对应的信息熵。
示例性地,di表示其中一段日志集中的各个日志向量与中心向量的距离中的中心向量可以是最新的中心向量。例如,根据日志簇计算得到的中心向量。
步骤2052,根据每段日志集的所述信息熵确定出目标日志集。
在一实施方式中,可以选目标类中的所有日志集中日志集的信息熵最大的日志集作为目标日志集。
示例性地,可以将目标类中的所有日志集的信息熵从大到小进行排序,将排序为第一的信息熵对应的日志集作为目标日志集。
示例性地,若上述分类结果的分类数量为k,则对应确定出的k项类别下的目标日志集可以表示为:D'=[D1',D'2...D'K]。
其中,D'=[D1',D'2...D'K]表示k项日志类别下的目标日志集,Di'表示第i类的目标日志集。
本申请实施例提供的日志文件聚类方法,与无监督聚类方法,具有更高的准确性。由于本申请实施例提供的方法结合了勿连约束集合,实现对日志文本聚类的半监督。进一步地,本申请实施例中,通过利用预先设定勿连规则首先对待聚类日志集中的日志进行粗分类,粗分类的结果加入勿连约束集合,共同将该勿连约束集合输入到半监督聚类中,达到更好分类效果。
进一步地,由于使用半监督的方法不需要像监督聚类方法所需的人工标注的样本,能够节约人力成本。进一步地,针对通过人工观测各分类下大量文本的时耗问题,可以使用半监督的方式确定分类结果后,还可以基于熵增原理对各类下的日志集进行筛选,从而可以使供用户观察的日志样本更少,在保证了采集到的样本具有代表性前提下节约了人工成本。
实施例三
基于同一申请构思,本申请实施例中还提供了与日志文件聚类方法对应的日志文件聚类装置,由于本申请实施例中的装置解决问题的原理与前述的日志文件聚类方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图7,是本申请实施例提供的日志文件聚类装置的功能模块示意图。本实施例中的日志文件聚类装置中的各个模块用于执行上述方法实施例中的各个步骤。日志文件聚类装置包括:计算模块301、确定模块302以及聚类模块303;其中,
计算模块301,用于对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;
确定模块302,用于对所述待聚类日志集进行解析,以确定出勿连约束集合;
聚类模块303,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
一种可能的实施方式中,本申请实施例提供的日志文件聚类装置还包括:
分段模块,用于将所述分类结果中的目标类中的日志簇分成多段日志集,所述目标类为所述分类结果中的任意一类;
筛选模块,用于从所述多段日志集中筛选出目标日志集,所述目标日志集为所述目标类的日志样本集。
一种可能的实施方式中,筛选模块,用于:
计算所述多段日志集中的每段日志集的信息熵;
根据每段日志集的所述信息熵确定出目标日志集。
一种可能的实施方式中,聚类模块303,用于:
从所述向量集中随机抽取第一数量的初始中心向量;
计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量;
根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果,所述分类结果包含第一数量项分类。
一种可能的实施方式中,聚类模块303包括:初始聚类单元、指数计算单元以及结果确定单元。
初始聚类单元,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果,每一项初始分类结果对应的分类项数不同;
指数计算单元,用于使用聚类评价算法计算每一项初始分类结果对应的聚类指数;
结果确定单元,用于根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。
一种可能的实施方式中,指数计算单元,用于:
使用DBI聚类评价算法计算每一项初始分类结果对应的聚类指数。
一种可能的实施方式中,计算模块301,用于:
计算目标日志的各个词对应的词向量,所述目标日志为待聚类日志中的任意一条日志;
根据所述各个词对应的词向量计算所述目标日志的日志向量。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的日志文件聚类方法的步骤。
本申请实施例所提供的日志文件聚类方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的日志文件聚类方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种日志文件聚类方法,其特征在于,包括:
对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;
对所述待聚类日志集进行解析,以确定出勿连约束集合;
基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述分类结果中的目标类中的日志簇分成多段日志集,所述目标类为所述分类结果中的任意一类;
从所述多段日志集中筛选出目标日志集,所述目标日志集为所述目标类的日志样本集。
3.根据权利要求2所述的方法,其特征在于,所述从所述多段日志集中筛选出目标日志集,包括:
计算所述多段日志集中的每段日志集的信息熵;
根据每段日志集的所述信息熵确定出目标日志集。
4.根据权利要求1所述的方法,其特征在于,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:
从所述向量集中随机抽取第一数量的初始中心向量;
计算目标向量与各个所述初始中心向量的距离,所述目标向量为所述向量集中的任意一个向量;
根据所述距离与所述勿连约束集合确定出所述目标向量所在的分类,以得到所述向量集的分类结果,所述分类结果包含第一数量项分类。
5.根据权利要求1所述的方法,其特征在于,所述基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果,包括:
基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的多项初始分类结果,每一项初始分类结果对应的分类项数不同;
使用聚类评价算法计算每一项初始分类结果对应的聚类指数;
根据所述聚类指数,从所述多项初始分类结果中确定出分类结果。
6.根据权利要求5所述的方法,其特征在于,所述使用聚类评价算法计算每一项初始分类结果对应的聚类指数,包括:
使用DBI聚类评价算法计算每一项初始分类结果对应的聚类指数。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,包括:
计算目标日志的各个词对应的词向量,所述目标日志为待聚类日志中的任意一条日志;
根据所述各个词对应的词向量计算所述目标日志的日志向量。
8.一种日志文件聚类装置,其特征在于,包括:
计算模块,用于对待聚类日志集进行计算,以得到所述待聚类日志中的每一条日志对应的日志向量,得到向量集;
确定模块,用于对所述待聚类日志集进行解析,以确定出勿连约束集合;
聚类模块,用于基于所述勿连约束集合,对所述向量集进行半监督聚类,以得到所述向量集的分类结果。
9.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法的步骤。
CN202011643826.1A 2020-12-30 2020-12-30 日志文件聚类方法、装置、电子设备和可读存储介质 Active CN112632000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011643826.1A CN112632000B (zh) 2020-12-30 2020-12-30 日志文件聚类方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011643826.1A CN112632000B (zh) 2020-12-30 2020-12-30 日志文件聚类方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112632000A true CN112632000A (zh) 2021-04-09
CN112632000B CN112632000B (zh) 2023-11-10

Family

ID=75290580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011643826.1A Active CN112632000B (zh) 2020-12-30 2020-12-30 日志文件聚类方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112632000B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、系统、设备及存储介质
WO2023206702A1 (zh) * 2022-04-29 2023-11-02 青岛海尔科技有限公司 日志的处理方法和装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN110880006A (zh) * 2018-09-05 2020-03-13 广州视源电子科技股份有限公司 用户分类方法、装置、计算机设备和存储介质
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN112131199A (zh) * 2020-09-25 2020-12-25 杭州安恒信息技术股份有限公司 一种日志处理方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110880006A (zh) * 2018-09-05 2020-03-13 广州视源电子科技股份有限公司 用户分类方法、装置、计算机设备和存储介质
CN110222172A (zh) * 2019-05-15 2019-09-10 北京邮电大学 一种基于改进层次聚类的多源网络舆情主题挖掘方法
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN112131199A (zh) * 2020-09-25 2020-12-25 杭州安恒信息技术股份有限公司 一种日志处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836300A (zh) * 2021-09-24 2021-12-24 中国电信股份有限公司 日志分析方法、系统、设备及存储介质
WO2023206702A1 (zh) * 2022-04-29 2023-11-02 青岛海尔科技有限公司 日志的处理方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN112632000B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN112163008B (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN107909119B (zh) 集合间相似度的确定方法和装置
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
EP4258610A1 (en) Malicious traffic identification method and related apparatus
CN111143842A (zh) 一种恶意代码检测方法及系统
CN112241494A (zh) 基于用户行为数据的关键信息推送方法及装置
CN112632000B (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN111291824A (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN112131249A (zh) 一种攻击意图识别方法及装置
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN114780606B (zh) 一种大数据挖掘方法及系统
CN109783633A (zh) 数据分析服务流程模型推荐方法
US20170220665A1 (en) Systems and methods for merging electronic data collections
Hussain et al. Design and analysis of news category predictor
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
Cortes Explainable outlier detection through decision tree conditioning
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113691525A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN112836747A (zh) 眼动数据的离群处理方法及装置、计算机设备、存储介质
US11210605B1 (en) Dataset suitability check for machine learning
CN112907306B (zh) 一种客户满意度判别方法及装置
CN108154179B (zh) 一种数据的检错方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant