CN116578700A - 日志分类方法、日志分类装置、设备及介质 - Google Patents
日志分类方法、日志分类装置、设备及介质 Download PDFInfo
- Publication number
- CN116578700A CN116578700A CN202310423173.3A CN202310423173A CN116578700A CN 116578700 A CN116578700 A CN 116578700A CN 202310423173 A CN202310423173 A CN 202310423173A CN 116578700 A CN116578700 A CN 116578700A
- Authority
- CN
- China
- Prior art keywords
- log data
- semantic
- log
- data
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 100
- 230000008569 process Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种日志分类方法、日志分类装置、设备及介质;涉及人工智能技术领域。日志分类方法包括:获取当前日志数据;确定当前日志数据的语义拟合向量;获取预构建的相似度索引,相似度索引是由已经分类的历史日志数据构成的,并将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据;将目标历史日志数据的分类结果作为当前日志数据的分类结果。本申请基于当前日志数据的语义拟合向量及预构建的相似度索引进行日志分类,可以在一定程度上提升日志分类的准确性及时效性。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种日志分类方法、日志分类装置、电子设备及计算机可读存储介质。
背景技术
日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合,其在系统的开发和维护中扮演着重要角色。系统在运行过程中往往会产生大量的日志,对于这大量级的日志数据,人为发现异常日志的效率极低。因此,需要将日志进行分类,以便于日志异常检测。
部分相关技术中,根据日志的长度及日志的关键词位置进行日志分类;也有部分相关技术中,将日志按照其功能进行分类,比如将所有的监控日志、业务日志、性能日志分别归类;还有部分相关技术中,将日志按照其来源进行分类,比如将访问日志、错误日志、安全日志分别归类。但是,日志分类的准确度及时效性仍存在一定的提升空间。
需要说明的是,在上述背景技术部分申请的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例的目的在于提供一种日志分类方法、日志分类装置、电子设备及计算机可读存储介质,进而至少在一定程度上提升日志分类的准确度及时效性。
根据本申请的第一方面,提供一种日志分类方法,包括:
获取当前日志数据;
确定当前日志数据的语义拟合向量;
获取预构建的相似度索引,相似度索引是由已经分类的历史日志数据构成的,并将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据;
将目标历史日志数据的分类结果作为当前日志数据的分类结果。
在本申请的一种示例性实施例中,确定当前日志数据的语义拟合向量,包括:确定当前日志数据的语料信息;将语料信息输入到预训练的语义主题模型中,得到当前日志数据的语义拟合向量。
在本申请的一种示例性实施例中,确定当前日志数据的语料信息,包括:提取当前日志数据中的日志关键信息,得到当前日志数据对应的当前日志模板;对当前日志模板进行分词统计,得到当前日志模板对应的关键词以及关键词对应的词频信息;基于关键词的标识信息和词频信息构建当前日志数据的语料信息,语料信息为关键词特征矩阵。
在本申请的一种示例性实施例中,语义主题模型是通过预训练过程得到的,所述预训练过程包括:基于存储的历史日志数据对应的历史日志模板,确定第一样本数据;根据第一样本数据的语料信息对预构建的语义主题模型进行深度学习训练,得到初始的语义主题模型,初始的语义主题模型包括第一语义主题数量。
在本申请的一种示例性实施例中,语义主题模型的预训练过程还包括:基于存储的历史日志数据对应的历史日志模板,确定第二样本数据;根据第二样本数据的语料信息对初始的语义主题模型进行验证,得到验证准确率;调整第一语义主题数量,直到验证准确率大于或者等于准确率阈值,得到训练完成的语义主题模型,语义主题模型包括第二语义主题数量。
在本申请的一种示例性实施例中,获取预构建的相似度索引,包括:获取存储的历史日志数据对应的历史日志模板;将历史日志模板的语料信息输入到预训练的语义主题模型中,得到历史日志数据的语义拟合向量;基于历史日志数据的语义拟合向量构建相似度索引。
在本申请的一种示例性实施例中,将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据,包括:计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度;若相似度的最大值大于或者等于相似度阈值,则将相似度的最大值对应的历史日志数据,作为与当前日志数据具有同类型日志内容的目标历史日志数据。
在本申请的一种示例性实施例中,将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据,还包括:若语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度均小于相似度阈值,则将当前日志数据作为新的日志分类类型。
根据本申请的第二方面,提供一种日志分类装置,包括:
数据获取模块,用于获取当前日志数据;
语义拟合模块,用于确定当前日志数据的语义拟合向量;
索引构建模块,用于获取预构建的相似度索引,相似度索引是由已经分类的历史日志数据构成的,并将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据;
日志分类模块,用于将目标历史日志数据的分类结果作为当前日志数据的分类结果。
根据本申请的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的方法。
本申请的示例性实施例可以具有以下部分或全部有益效果:
本申请示例性实施例所提供的日志分类方法中,首先确定当前日志数据的拟合向量,然后获取预构建的相似度索引,并将语义拟合向量和相似度索引进行匹配,确定目标历史日志数据,最后将目标历史日志数据的分类结果作为当前日志数据的分类结果。一方面,相较于根据日志的长度及日志的关键词位置进行日志分类的相关技术,本申请可以利用当前日志数据的语义拟合向量来进行分类,语义拟合向量可以表示当前日志数据的语义信息,进而避免格式不同但语义相似的日志无法归为一类的问题,提升日志分类的准确度;另一方面,本申请基于预构建的相似度索引进行日志分类,减少了日志分类时的搜索复杂度,进而提升日志分类的时效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了根据本申请实施例提供的应用场景的系统构架示意图;
图2示意性地示出了根据本申请实施例提供的日志分类方法的流程图;
图3示意性地示出了根据本申请实施例提供的确定当前日志数据的语料信息的流程图;
图4示意性地示出了根据本申请实施例提供的获取当前日志模板的示意图;
图5示意性地示出了根据本申请实施例提供的语义主题模型训练的过程图;
图6示意性地示出了根据本申请实施例提供的日志分类方法的流程图;
图7示意性地示出了根据本申请实施例提供的日志分类装置的框图;
图8示意性地示出了根据本申请实施例提供的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其他的方法、组元、装置、步骤等。在其他情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示意性地示出了根据本申请实施例提供的应用场景的系统构架示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有程序运行功能的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在一种示例性实施方式中,可以是用户在终端设备101、102、103上运行系统,终端设备上的日志采集模块将系统运行过程中产生的当前日志数据通过网络104上传至服务器105;服务器105在接收到当前日志数据后,确定当前日志数据的语义拟合向量,并获取预构建的相似度索引,并将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据,最后将目标历史日志数据的分类结果作为当前日志数据的分类结果。但本领域技术人员容易理解的是,上述应用场景仅是用于举例,本示例性实施例中并不以此为限。
可以理解的,在程序运行过程中,会产生大量的半结构化的日志,而在这些半结构化的日志数据中,往往包含着系统运行故障、运行状态等重要信息。对于这大量级的日志数据,人为发现异常日志的效率极低。且不同的日志中往往会存在相同或者类似的报警问题,导致在对已知的报警日志进行屏蔽时,可能会影响未知问题的发现。因此,可以利用数据处理技术对日志进行分类。
在相关技术中,通常是先去除日志数据中的IP地址、时间戳等非关键信息,得到日志数据中的关键信息,将其作为日志模板数据,然后通过聚类算法对日志模板数据进行聚类处理,得到日志模板的分类结果,并基于分类结果构建日志模板库,接着将获取到的待分类日志数据进行日志模板提取,得到待分类日志模板,然后将待分类日志模板和日志模板库中的日志模板基于字符的标签树算法或基于日志长度及关键词进行匹配,得到该待分类日志模板的分类。但是在系统更新或升级等场景下,此时系统产生的日志在格式及内容上往往和之前的日志相比区别较大,若采用上述基于字符的标签树算法或基于日志长度及关键词进行分类的方法,需要重新生成新系统对应的日志模板库,损失了日志分类的时效性,而且待分类日志中能够匹配到日志模板的日志数量占总的待分类日志数量的比例,即已有的日志模板库能够覆盖的日志问题占总日志问题的比例依赖于日志模板库的更新。
但是,对于系统升级或更新后产生的日志,虽然其在格式及内容上和之前的日志相比区别较大,但是在语义信息上往往和之前的日志仍存在一定的相似性,基于此,本申请提供了一种基于日志语义信息的日志分类方法。
基于相关技术中存在的一个或者多个问题,本示例性实施例首先提供了一种日志分类方法。该日志分类可以应用于上述服务器,也可以应用于上述终端设备;还可以同时应用于上述终端设备以及上述服务器;本示例性实施例中对此不做特殊限定。参考图2所示,该日志分类方法可以包括以下步骤:
步骤S210,获取当前日志数据;
步骤S220,确定当前日志数据的语义拟合向量;
步骤S230,获取预构建的相似度索引,所述相似度索引是由已经分类的历史日志数据构成的,并将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据;
步骤S240,将目标历史日志数据的分类结果作为当前日志数据的分类结果。
本示例性实施例所提供的日志分类方法中,一方面,相较于根据日志的长度及日志的关键词位置进行日志分类的相关技术,本申请可以利用当前日志数据的语义拟合向量来进行分类,语义拟合向量可以表示当前日志数据的语义信息,进而避免格式不同但语义相似的日志无法归为一类的问题,提升日志分类的准确度;另一方面,本申请基于预构建的相似度索引进行日志分类,减少了日志分类时的搜索复杂度,进而提升日志分类的时效性。
下面,对上述步骤进行详细说明。
在步骤S210中,获取当前日志数据。
其中,当前日志数据可以表示待分类的日志数据,其可以是系统运行过程中实时产生的日志数据,还可以是未匹配到日志模板的日志数据,例如,基于日志长度及关键词进行日志分类等相关方法中未匹配到日志模板的日志数据,也可以是现有数据集中的日志数据等,本示例性实施例在此不做特殊限定。
另外,在获取当前日志数据时,可以利用MySQL工作台(MySQL Workbench)、Syslog-ng、ELK Stack等日志获取工具来获取当前日志数据,还可以从系统的日志存储数据库中获取当前日志数据,当然,还可以基于现有技术中的其他方法来获取当前日志数据,本示例性实施例在此不做特殊限定。
在步骤S220中,确定当前日志数据的语义拟合向量。
其中,语义拟合向量表示包含日志数据的语义信息的向量。语义拟合向量可以表示日志数据在主题空间的向量表示,而主题空间是指主题模型中所有主题的集合,在主题模型中,每一个主题都是由一组相关的词语组成的,主题空间的大小取决于主题模型中设定的主题个数,一般情况下,主题空间的大小与数据的规模、领域等因素有关。
在一种示例性实施例中,确定当前日志数据的拟合向量,包括:确定当前日志数据的语料信息;将语料信息输入到预训练的语义主题模型中,得到当前日志数据的语义拟合向量。这样可以基于语义主题模型准确得到当前日志的包含语义信息的语义拟合向量。其中,语料信息可以表示当前日志数据中的分词及词频信息。而语义主题模型是一种用于分析文本数据的深度学习模型,其可以从文本数据中提取主题信息,构建主题空间,从而为文本数据提供更高层次的理解和分析。将语料信息输入语义主题模型,可以得到当前日志数据在主题空间的向量表示。其中,语义主题模型可以是潜在语义分析(latent semanticanalysis,LSA)模型,还可以是潜在语义索引(Latent Semantic Indexing,LSI)模型等其他类型的语义主题模型。
在一种示例性实施例中,参考图3,可通过下述步骤S310至步骤S330来确定当前日志数据的语料信息,其中:
在步骤S310中,提取当前日志数据中的日志关键信息,得到当前日志数据对应的当前日志模板。其中,日志关键信息可以表示用来识别日志事件类型、错误类型、处理过程中的重要信息等的分词,示例性的,“error”“exception”“fail”等分词可以表示日志中的错误信息;“start”“stop”“success”等分词可以表示日志事件的运行状态。
具体地,提取当前日志数据中的日志关键信息,可以是,通过正则匹配,将当前日志数据中的特定参数,如IP地址、时间等识别出来,然后替换为通配符或删除,将保留的分词作为日志关键信息;当然,也可以是,将当前日志数据中的时间戳、等级或组件信息去除或替换,将保留的分词作为日志关键信息,本示例性实施例在此不做特殊限定。然后,参考图4所示,将关键信息作为当然日志数据对应的当前日志模板。
在步骤S320中,对当前日志模板进行分词统计,得到当前日志模板对应的关键词以及关键词对应的词频信息。其中,分词统计可以表示统计当前日志模板中关键词对应的词频信息,而词频信息可以用关键词对应的词频-逆文本频率(Term Frequency-InverseDocument Frequency,TF-IDF)值来表示。具体地,关键词对应的词频(Term Frequency,TF)表示该关键词在当前日志模板中的出现次数;关键词对应的逆文本频率(InverseDocument Frequency,IDF)可以通过公式计算得到,其中,N0为语料库中的所有当前日志模板的数目,N1为语料库的所有当前日志模板中包含该关键词的日志模板的数目,语料库是所有当前日志模板对应的集合;然后计算词频与逆文本频率之积,得到该关键词对应的TF-IDF值,作为该关键词的词频信息。
另外,在本示例性实施例中,对当前日志模板进行分词统计,得到当前日志模板对应的关键词,以自然语言工具包分词(natural language toolkit,NLTK)为例,可以根据空格、符号等分隔符得到分词组,然后进行分词过滤,最后提取词干得到多个分词,将这多个分词作为该日志模板对应的关键词。当然,本领域技术人员容易理解的是,上述分词处理也可以采用任何可能的分词方式实现,例如Keras分词、Spacy分词或者Gensim分词等。
此外,由于日志模板中的每个词都有特定的含义,示例性的,“ERROR”与“error”出现在不同的场景下所表达的含义可能完全不同。因此,本示例性实施例在进行分词统计时,还可以不采用去停用词、取枝干的方法,保留关键词的原有形式。其中,对当前日志模板进行分词统计,可以通过Python中的gensim包来实现。
在步骤S330中,基于关键词的标识信息和词频信息构建当前日志数据的语料信息,语料信息为关键词特征矩阵。其中,标识信息是指关键词对应的编号,具体地,基于所有的当前日志模板构建关键词“词袋”,然后将每个关键词看作是独立的,对每个关键词分配一个唯一的整数编号,作为该关键词的标识信息。
进一步地,将所有当前日志模板的TF-IDF向量按行组合,得到一个TF-IDF矩阵,其中每行代表一个当前日志模板,每列代表一个关键词,矩阵中的每个元素都是该关键词在对应当前日志模板中的TF-IDF值,然后将该TF-IDF矩阵作为关键词特征矩阵。另外,关键词特征矩阵的构建可以使用Python中的sklearn库中的TfidfVectorizer类实现。
在一种示例性实施例中,语义主题模型是通过预训练过程得到的,所述预训练过程包括:基于存储的历史日志数据对应的历史日志模板,确定第一样本数据;根据第一样本数据的语料信息对预构建的语义主题模型进行深度学习训练,得到初始的语义主题模型,所述初始的语义主题模型包括第一语义主题数量。这样可以基于已有的历史日志数据训练得到第一语义主题数量的初始的语义主题模型。其中,第一语义主题数量表示初始的语义主题模型对应的主题数量,其由模型凝聚度决定,示例性的,第一语义主题数量可以是3,还可以是4等其他数值,本示例性实施例在此不做特殊限定。
本示例性实施例中,语义主题模型采用潜在语义分析(LSA)模型,其中,潜在语义分析模型是一种基于矩阵分解的语义模型,用于在文本集合中发现潜在的语义信息,其可以通过对关键词特征矩阵进行奇异值分解,得到当前日志模板对应的主题向量,以及每个当前日志模板在主题空间的向量表示。
进一步地,将第一样本数据对应的语料信息即关键词特征矩阵输入预构建的潜在语义分析模型,潜在语义分析模型基于损失函数确定第一主题数量。其中,潜在语义分析模型的损失函数是基于矩阵重构误差和奇异值分解的误差之和,如下式所示:
Loss=||D-USVT||2
其中,||.||表示欧几里得范数即矩阵重构误差,D表示关键词特征矩阵,U、S、V为关键词特征矩阵进行奇异值分解后得到的三个矩阵,其中,U和V是正交矩阵,S是对角矩阵。潜在语义分析的目标是最小化L,即找到一个最优的U、S和V,使得D的重构误差最小化。
在一种示例性实施例中,语义主题模型的预训练过程,还可以包括:基于存储的历史日志数据对应的历史日志模板,确定第二样本数据;根据第二样本数据的语料信息对初始的语义主题模型进行验证,得到验证准确率;调整第一语义主题数量,直到验证准确率大于或者等于准确率阈值,得到训练完成的语义主题模型,所述语义主题模型包括第二语义主题数量。这样可以得到第二语义主题数量的训练完成的语义主题模型。其中,第二语义主题数量表示训练完成的语义主题模型对应的主题数量,其由验证准确率决定,示例性的,第二语义主题数量可以是4,还可以是5等其他数值,本示例性实施例在此不做特殊限定。
具体地,将第二样本数据输入语义主题模型之后,得到第二样本数据在主题空间的向量表示,然后将第二样本数据中的日志模板在主题空间的向量表示和第一样本数据中的所有日志模板在主题空间的向量表示进行相似度度量,确定相似度最大的第一样本数据中的日志模板,若相似度大于相似度阈值,则将该日志模板的分类结果作为第二样本数据中的日志模板的分类结果。其中,相似度度量的具体过程,可以是,计算第二样本数据中的日志模板在主题空间的向量表示和第一样本数据中的所有日志模板在主题空间的向量表示的欧氏距离。接着,确定第二样本数据中被正确分类的日志模板数量及第二样本数据中日志模板总数量,将第二样本数据中被正确分类的日志模板数量和第二样本数据中日志模板总数量的比值作为验证准确率。最后,调整语义主题模型的主题数量,直到验证准确率大于或者等于准确率阈值,得到训练完成的语义主题模型,训练完成的语义主题模型对应的主题数量为第二语义主题数量。其中,准确率阈值是预设的参数,示例性的,准确率阈值可以是95%,还可以是97%等其他数值。
在一种示例性实施例中,参考图5所示,其表示语义主题模型训练的具体过程。其中,基于已有的日志模板及其所属的日志模板分类组成样本数据,然后基于样本数据构建关键词特征矩阵,接着,将样本数据输入语义主题模型,基于损失函数及验证准确率调整主题数量,得到训练完成的语义主题模型。
继续参考图2所示,在步骤S230中,获取预构建的相似度索引,相似度索引是由已经分类的历史日志数据构成的,并将语义拟合向量与所述相似度索引进行匹配,确定目标历史日志数据。其中,目标历史日志数据是指和当前日志数据对应的历史日志数据。
在一种示例性实施例中,获取预构建的相似度索引,包括:获取存储的历史日志数据对应的历史日志模板;将历史日志模板的语料信息输入到预训练的语义主题模型中,得到历史日志数据的语义拟合向量;基于历史日志数据的语义拟合向量构建相似度索引。这样可以建立一个关于日志模板的语义拟合向量和日志模板分类的相似度索引。其中,相似度索引表示日志模板的语义拟合向量和日志模板分类是一一对应的关系。
在一种示例性实施例中,将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据,包括:计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度;若所述相似度的最大值大于或者等于相似度阈值,则将所述相似度的最大值对应的历史日志数据,作为与当前日志数据具有同类型日志内容的目标历史日志数据。这样可以准确得到当前日志数据对应的目标历史日志数据。
具体地,计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度,可以是计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的欧式距离,还可以是计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的余弦距离等,本示例性实施例在此不做特殊限定。如果相似度最大值大于或者等于相似度阈值,则将相似度最大值对应的历史日志数据作为目标历史日志数据。示例性的,以语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的欧式距离,表示语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度,则相似度阈值可以为40,还可以为35等其他数值,本示例性实施例在此不做特殊限定。
在一种示例性实施例中,若语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度均小于相似度阈值,则将当前日志数据作为新的日志分类类型。具体地,语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度均小于相似度阈值,表示历史日志数据即日志分类结果中没有该语义拟合向量对应的日志数据分类,因此,可以将该语义拟合向量对应的当前日志数据作为新的日志分类类型,这样不仅可以增加日志分类的类型,而且可以减少日志模板匹配不到目标历史日志数据的情况。
在步骤S240中,将目标历史日志数据的分类结果作为当前日志数据的分类结果。具体地,通过相似度索引确定了当前历史日志数据对应的目标历史日志数据,即当前历史日志数据在主题空间的语义拟合向量与目标历史日志数据在主题空间的语义拟合向量的相似度最大且不小于相似度阈值,则将目标历史日志数据的分类结果作为当前日志数据的分类结果。
在一种示例性实施例中,参考图6所示,表示日志分类方法的具体流程。具体地,首先获取历史日志数据,然后提取历史日志数据中的语料信息,并将语料信息输入训练完成的语义主题模型,得到训练完成的语义主题模型,并建立相似度索引,最后将当前日志数据输入训练完成的语义主题模型,并得到当前日志数据在索引下的分类。
基于上述示例性实施例所提供的日志分类方法,利用语义主题模型得到历史日志数据在主题空间的向量表示,然后在主题空间来计算不同日志模板的相似度,使得能够从语义层面上对日志数据进行理解,这样可以使得由于系统升级或更新导致的打印的日志格式不同于上一版本的日志,但在语义内容上和上一版本的日志相似的当前日志数据进行正确分类。另外,在训练完成的语义主题模型的基础上建立了相似度索引,从而减少了当前日志数据分类搜索时的时间复杂度,极大地提高了分类的时效性。上述示例性实施例所提供的日志分类方法中,首先确定当前日志数据的拟合向量,然后获取预构建的相似度索引,并将语义拟合向量和相似度索引进行匹配,确定目标历史日志数据,最后将目标历史日志数据的分类结果作为当前日志数据的分类结果。一方面,相较于根据日志的长度及日志的关键词位置进行日志分类的相关技术,本申请可以利用当前日志数据的语义拟合向量来进行分类,语义拟合向量可以表示当前日志数据的语义信息,进而避免格式不同但语义相似的日志无法归为一类的问题,提升日志分类的准确度;另一方面,本申请基于预构建的相似度索引进行日志分类,减少了日志分类时的搜索复杂度,进而提升日志分类的时效性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,在一种示例性实施例中,还提供了一种日志分类装置。参考图7所示,该日志分类装置700可以包括数据获取模块710、语义拟合模块720、索引构建模块730、日志分类模块740。其中:
数据获取模块710可以用于获取当前日志数据;
语义拟合模块720可以用于确定所述当前日志数据的语义拟合向量;
索引构建模块730可以用于获取预构建的相似度索引,所述相似度索引是由已经分类的历史日志数据构成的,并将所述语义拟合向量与所述相似度索引进行匹配,确定目标历史日志数据;
日志分类模块740可以用于将所述目标历史日志数据的分类结果作为所述当前日志数据的分类结果。
在本申请的一种示例性实施例中,语义拟合模块720包括:
语料信息单元,可以用于确定所述当前日志数据的语料信息;
信息输入单元,可以用于将所述语料信息输入到预训练的语义主题模型中,得到所述当前日志数据的语义拟合向量。
在本申请的一种示例性实施例中,语料信息单元可以通过下述方法确定当前日志数据的语料信息:提取当前日志数据中的日志关键信息,得到当前日志数据对应的当前日志模板;对当前日志模板进行分词统计,得到当前日志模板对应的关键词以及关键词对应的词频信息;基于关键词的标识信息和词频信息构建当前日志数据的语料信息,语料信息为关键词特征矩阵。
在本申请的一种示例性实施例中,所述语义主题模型是通过预训练过程得到的,预训练过程包括:基于存储的历史日志数据对应的历史日志模板,确定第一样本数据;根据第一样本数据的语料信息对预构建的语义主题模型进行深度学习训练,得到初始的语义主题模型,初始的语义主题模型包括第一语义主题数量。
在本申请的一种示例性实施例中,所述语义主题模型的预训练过程还包括:基于存储的历史日志数据对应的历史日志模板,确定第二样本数据;根据第二样本数据的语料信息对初始的语义主题模型进行验证,得到验证准确率;调整第一语义主题数量,直到验证准确率大于或者等于准确率阈值,得到训练完成的语义主题模型,语义主题模型包括第二语义主题数量。
在本申请的一种示例性实施例中,索引构建模块730可以通过下述方法获取预构建的相似度索引:获取存储的历史日志数据对应的历史日志模板;将历史日志模板的语料信息输入到预训练的语义主题模型中,得到历史日志数据的语义拟合向量;基于历史日志数据的语义拟合向量构建相似度索引。
在本申请的一种示例性实施例中,索引构建模块730可以通过下述方法将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据:计算语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度;若相似度的最大值大于或者等于相似度阈值,则将相似度的最大值对应的历史日志数据,作为与当前日志数据具有同类型日志内容的目标历史日志数据。
在本申请的一种示例性实施例中,索引构建模块730还可以通过下述方法将语义拟合向量与相似度索引进行匹配,确定目标历史日志数据:若语义拟合向量和相似度索引中各历史日志数据的语义拟合向量的相似度均小于相似度阈值,则将当前日志数据作为新的日志分类类型。
上述日志分类装置中各模块的具体细节已经在对应的日志分类方法中进行了详细的描述,因此此处不再赘述。
作为另一方面,本申请还提供了一种电子设备,图8示意性地示出了根据本申请实施例提供的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和适用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器811也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分801从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统800还可以包括数据处理器,该数据处理器用于处理有关日志分类的计算操作。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (11)
1.一种日志分类方法,其特征在于,包括:
获取当前日志数据;
确定所述当前日志数据的语义拟合向量;
获取预构建的相似度索引,所述相似度索引是由已经分类的历史日志数据构成的,并将所述语义拟合向量与所述相似度索引进行匹配,确定目标历史日志数据;
将所述目标历史日志数据的分类结果作为所述当前日志数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述当前日志数据的语义拟合向量,包括:
确定所述当前日志数据的语料信息;
将所述语料信息输入到预训练的语义主题模型中,得到所述当前日志数据的语义拟合向量。
3.根据权利要求2所述的方法,其特征在于,所述确定所述当前日志数据的语料信息,包括:
提取所述当前日志数据中的日志关键信息,得到所述当前日志数据对应的当前日志模板;
对所述当前日志模板进行分词统计,得到所述当前日志模板对应的关键词以及所述关键词对应的词频信息;
基于所述关键词的标识信息和所述词频信息构建所述当前日志数据的语料信息,所述语料信息为关键词特征矩阵。
4.根据权利要求2所述的方法,其特征在于,所述语义主题模型是通过预训练过程得到的,所述预训练过程包括:
基于存储的历史日志数据对应的历史日志模板,确定第一样本数据;
根据所述第一样本数据的语料信息对预构建的语义主题模型进行深度学习训练,得到初始的语义主题模型,所述初始的语义主题模型包括第一语义主题数量。
5.根据权利要求4所述的方法,其特征在于,所述预训练过程还包括:
基于存储的历史日志数据对应的历史日志模板,确定第二样本数据;
根据所述第二样本数据的语料信息对所述初始的语义主题模型进行验证,得到验证准确率;
调整所述第一语义主题数量,直到所述验证准确率大于或者等于准确率阈值,得到训练完成的语义主题模型,所述语义主题模型包括第二语义主题数量。
6.根据权利要求1或2所述的方法,其特征在于,所述获取预构建的相似度索引,包括:
获取存储的历史日志数据对应的历史日志模板;
将所述历史日志模板的语料信息输入到预训练的语义主题模型中,得到所述历史日志数据的语义拟合向量;
基于所述历史日志数据的语义拟合向量构建相似度索引。
7.根据权利要求1所述的方法,其特征在于,所述将所述语义拟合向量与所述相似度索引进行匹配,确定目标历史日志数据,包括:
计算所述语义拟合向量和所述相似度索引中各历史日志数据的语义拟合向量的相似度;
若所述相似度的最大值大于或者等于相似度阈值,则将所述相似度的最大值对应的历史日志数据,作为与所述当前日志数据具有同类型日志内容的目标历史日志数据。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若所述语义拟合向量和所述相似度索引中各历史日志数据的语义拟合向量的相似度均小于相似度阈值,则将所述当前日志数据作为新的日志分类类型。
9.一种日志分类装置,其特征在于,包括:
数据获取模块,用于获取当前日志数据;
语义拟合模块,用于确定所述当前日志数据的语义拟合向量;
索引构建模块,用于获取预构建的相似度索引,所述相似度索引是由已经分类的历史日志数据构成的,并将所述语义拟合向量与所述相似度索引进行匹配,确定目标历史日志数据;
日志分类模块,用于将所述目标历史日志数据的分类结果作为所述当前日志数据的分类结果。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-8中任一项所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423173.3A CN116578700A (zh) | 2023-04-19 | 2023-04-19 | 日志分类方法、日志分类装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423173.3A CN116578700A (zh) | 2023-04-19 | 2023-04-19 | 日志分类方法、日志分类装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116578700A true CN116578700A (zh) | 2023-08-11 |
Family
ID=87536815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310423173.3A Pending CN116578700A (zh) | 2023-04-19 | 2023-04-19 | 日志分类方法、日志分类装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116578700A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117234776A (zh) * | 2023-09-18 | 2023-12-15 | 厦门国际银行股份有限公司 | 一种批处理报错作业的智能判定方法、装置及设备 |
-
2023
- 2023-04-19 CN CN202310423173.3A patent/CN116578700A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117234776A (zh) * | 2023-09-18 | 2023-12-15 | 厦门国际银行股份有限公司 | 一种批处理报错作业的智能判定方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
CN113449099B (zh) | 文本分类方法和文本分类设备 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
US20240078168A1 (en) | Test Case Generation Method and Apparatus and Device | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
US20200117574A1 (en) | Automatic bug verification | |
CN112685324A (zh) | 一种生成测试方案的方法及系统 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN113032253A (zh) | 测试数据特征提取方法、测试方法及相关装置 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
US11604923B2 (en) | High volume message classification and distribution | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN111291208B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
CN114896141A (zh) | 测试用例的去重方法、装置、设备及计算机可读存储介质 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |