CN116680402A - 基于日志文件的设备检测方法、装置以及电子设备 - Google Patents
基于日志文件的设备检测方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN116680402A CN116680402A CN202310842789.4A CN202310842789A CN116680402A CN 116680402 A CN116680402 A CN 116680402A CN 202310842789 A CN202310842789 A CN 202310842789A CN 116680402 A CN116680402 A CN 116680402A
- Authority
- CN
- China
- Prior art keywords
- target
- log information
- distance
- feature vector
- feature vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 279
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 40
- 230000005856 abnormality Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种基于日志文件的设备检测方法、装置以及电子设备,涉及金融科技领域及其他相关技术领域。其中,该方法包括:获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,根据N个文本日志信息确定A个第一特征向量,根据N个指标日志内容确定B个第二特征向量,计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。本申请解决了在检测设备是否存在异常的过程中检测准确率低的问题的技术问题。
Description
技术领域
本申请涉及金融科技领域及其他相关技术领域,具体而言,涉及一种基于日志文件的设备检测方法、装置以及电子设备。
背景技术
设备的日志文件中包含多种日志信息,例如,设备的日志文件中包含设备操作记录信息和设备指标日志信息。现有技术中,在用户或运维人员对包含不同日志信息的日志文件中进行分析时,主要采用单模态的分析法,即用户或运维人员对设备操作记录信息和设备指标日志信息进行单独分析,从而缺少对设备日志文件的综合判断,进而导致了在检测设备是否存在异常的过程中准确率低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种基于日志文件的设备检测方法、装置以及电子设备,以至少解决在检测设备是否存在异常的过程中准确率低的技术问题。
根据本申请的一个方面,提供了一种基于日志文件的设备检测方法,包括:获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数;根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容;根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容;计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,其中,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量;在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
进一步地,基于日志文件的设备检测方法还包括:对N个文本日志信息中的每个文本日志信息进行分词处理,得到每个文本日志信息对应的X个单词,X为正整数;对X个单词进行去停用词处理,得到Y个第一单词,其中,去停用词处理用于过滤X个单词中不具有语义信息的单词,Y为小于或等于X的正整数;对Y个第一单词进行去重处理,得到A个目标单词,其中,去重处理用于从Y个第一单词中过滤与A个目标单词中任意一个目标单词相同的第一单词;根据A个目标单词确定A个第一特征向量,其中,每个目标单词对应一个第一特征向量。
进一步地,基于日志文件的设备检测方法还包括:根据A个目标单词中的每个目标单词生成一个聚类结果,得到A个聚类结果,其中,每个目标单词对应的聚类结果用于表征包含有该目标单词的至少一个文本日志信息;从每个聚类结果中的至少一个文本日志信息中确定目标文本内容,其中,目标文本日志内容为至少一个文本日志信息中重复出现的文本内容;依据A个聚类结果中的每个聚类结果对应的目标文本内容生成与该聚类结果相对应的第一特征向量,得到A个第一特征向量。
进一步地,基于日志文件的设备检测方法还包括:从A个第一特征向量中随机确定K个第一特征向量作为K个第一聚类中心,其中,K为小于A的正整数;为A个第一特征向量中除K个第一聚类中心之外的每个第一特征向量设置第一标签,其中,第一标签对应的第一特征向量为未分配至第一聚类的第一特征向量,第一聚类为任意一个第一聚类中心所对应的聚类。
进一步地,基于日志文件的设备检测方法还包括:步骤一,将第一标签对应的第一特征向量作为待处理特征向量;步骤二,将待处理特征向量分配至目标聚类中心所对应的第一聚类中,其中,目标聚类中心为K个第一聚类中心中与待处理特征向量距离最短的第一聚类中心;步骤三,将待处理特征向量对应的第一标签更新为第二标签,其中,第二标签用于表征待处理特征向量已分配至目标聚类中心所对应的第一聚类中;步骤四,重新计算目标聚类中心所对应的第一聚类的中心向量,并将目标聚类中心更新为计算得到的中心向量;步骤五,重复执行上述步骤一至步骤四的过程,直至所有对应第一标签的第一特征向量均分配至第一聚类中。
进一步地,基于日志文件的设备检测方法还包括:将A个第一特征向量中每个第一特征向量的生成时间作为一个第一目标时间,得到A个第一目标时间;将B个第二特征向量中每个第二特征向量的生成时间作为一个第二目标时间,得到B个第二目标时间;基于A个第一目标时间和B个第二目标时间,对A个第一特征向量和B个第二特征向量进行时序处理,得到C个第三特征向量,其中,时序处理用于将生成时间相同的第一特征向量和第二特征向量拼接为一个第三特征向量;将第三特征向量与第三聚类中心的距离作为第三距离,其中,第三聚类中心为第三特征向量所在聚类的中心向量;在第三距离大于预设距离的情况下,确定目标设备处于异常状态。
进一步地,基于日志文件的设备检测方法还包括:在第一距离、第二距离以及第三距离均小于或等于预设距离的情况下,确定目标设备处于正常状态。
根据本申请的另一方面,还提供了一种基于日志文件的设备检测装置,包括:获取单元,用于获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数;第一确定单元,用于根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容;第二确定单元,用于根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容;计算单元,用于计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,其中,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量;异常确定单元,用于在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
根据本申请的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的基于日志文件的设备检测方法。
根据本申请的另一方面,还提供了一种电子设备,其中,电子设备包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的基于日志文件的设备检测方法。
在本申请中,首先,获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数,其次,根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容,然后,根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容,之后,计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,其中,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量,最后,在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
由上述内容可知,本申请通过分析目标设备的文本日志信息得到第一特征向量,通过分析目标设备的指标日志信息得到第二特征向量,实现了从文本日志信息维度和指标日志信息维度对目标设备进行分析的目的,相比于现有技术中仅从单维度对目标设备的设备状态进行评估,本申请的评估维度更加多元化,从而确保了更加全面的评估设备的设备状态,提高设备异常检测的准确率。
由此可见,本申请的技术方案实现了从多个维度对目标设备进行综合分析的目的,从而实现了提高设备异常检测的准确率的技术效果,进而解决了现有技术中在检测设备是否存在异常的过程中的准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的基于日志文件的设备检测方法的流程图;
图2是根据本申请实施例的一种可选的获取A个第一特征向量方法的流程图;
图3是根据本申请实施例的一种可选的第一聚类生成方法的流程图;
图4是根据本申请实施例的一种可选的判断目标设备处于异常状态方法的流程图;
图5是根据本申请实施例的另一种可选的基于日志文件的设备检测方法的流程图;
图6是根据本申请实施例的一种可选的基于日志文件的设备检测装置的示意图;
图7是根据本申请实施例的另一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
还需要说明的是,本申请所涉及的相关信息(包括但不限于获取目标设备的N个日志文件等)和数据(包括但不限于用于展示的数据以及分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
下面结合各实施例来进一步说明本申请。
实施例1
根据本申请实施例,提供了一种基于日志文件的设备检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请提供了一种检测系统用于执行本申请实施例中的基于日志文件的设备检测方法,图1是根据本申请实施例的一种可选的基于日志文件的设备检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取目标设备的N个日志文件。
具体地,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数。
举例说明,检测系统获取了目标设备A的100个日志文件,其中,每个日志文件包含1个文本日志信息,基于目标设备A的100个日志文件得到目标设备A对应的100个文件日志信息;每个日志文件中包含1个指标日志信息,基于目标设备A的100个日志文件得到目标设备A对应的100个指标日志信息。
步骤S102,根据N个文本日志信息确定A个第一特征向量。
具体地,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容。
可选地,检测系统首先对N个文本日志信息中的每个文本日志信息进行分词处理和去停用词操作,得到该文本日志信息对应的Y个第一单词,然后,对Y个第一单词进行去重,得到A个目标单词,之后,基于A个目标单词中的每个目标单词生成一个聚类结果,得到A个聚类结果,最后,检测系统基于A个聚类结果中的每个聚类结果生成对应的第一特征向量,得到A个第一特征向量。
步骤S103,根据N个指标日志内容确定B个第二特征向量。
具体地,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容。
可选地,检测系统首先对N个指标日志信息中的每个指标日志信息进行分词处理和去停用词操作,得到该指标日志信息对应的Z个第二单词,然后,对Z个第二单词进行去重,得到B个目标指标单词,之后,基于B个目标指标单词中的每个目标指标单词生成一个聚类结果,共得到B个聚类结果,最后,检测系统基于B个聚类结果中的每个聚类结果生成对应的第二特征向量,得到B个第二特征向量。
步骤S104,计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离。
具体地,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量。
步骤S105,在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
可选地,在获取A个第一特征向量和B个第二特征向量之后,检测系统基于第一特征向量的生成时间和第二特征向量的生成时间,对A个第一特征向量和B个第二特征向量进行时序处理,得到C个第三特征向量,然后,计算第三特征向量与第三聚类中心的距离,得到第三距离,在第三距离大于预设距离的情况下,确定目标设备处于异常状态。
另外,检测系统在第一距离、第二距离以及第三距离均小于或等于预设距离的情况下,确定目标设备处于正常状态。
由上述内容可知,本申请通过分析目标设备的文本日志信息得到第一特征向量,通过分析目标设备的指标日志信息得到第二特征向量,实现了从文本日志信息维度和指标日志信息维度对目标设备进行分析的目的,相比于现有技术中仅从单维度对目标设备的设备状态进行评估,本申请的评估维度更加多元化,从而确保了更加全面的评估设备的设备状态,提高设备异常检测的准确率。
由此可见,本申请的技术方案实现了从多个维度对目标设备进行综合分析的目的,从而实现了提高设备异常检测的准确率的技术效果,进而解决了现有技术中在检测设备是否存在异常的过程中的准确率低的技术问题。
在一种可选的实施例中,图2是根据本申请实施例的一种可选的获取A个第一特征向量方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,对N个文本日志信息中的每个文本日志信息进行分词处理,得到每个文本日志信息对应的X个单词。
具体地,X为正整数。
步骤S202,对X个单词进行去停用词处理,得到Y个第一单词。
具体地,去停用词处理用于过滤X个单词中不具有语义信息的单词,Y为小于或等于X的正整数。
步骤S203,对Y个第一单词进行去重处理,得到A个目标单词。
具体地,去重处理用于从Y个第一单词中过滤与A个目标单词中任意一个目标单词相同的第一单词。
步骤S204,根据A个目标单词确定A个第一特征向量。
具体地,每个目标单词对应一个第一特征向量。
另外,检测系统对N个指标日志信息中的每个指标日志信息进行分词处理,得到每个指标日志信息对应的T个单词,其中,T为正整数,其次,对T个单词进行去停用词处理,得到Z个第二单词,其中,Z为小于或等于T的正整数,然后,对Z个第二单词进行去重处理,得到B个目标指标单词,其中,去重处理用于从Z个第二单词中过滤与B个目标指标单词中任意二个目标指标单词相同的第二单词,之后,根据B个目标指标单词确定B个第二特征向量,其中,每个目标指标单词对应一个第二特征向量。
在一种可选的实施例中,检测系统根据A个目标单词中的每个目标单词生成一个聚类结果,得到A个聚类结果,其中,每个目标单词对应的聚类结果用于表征包含有该目标单词的至少一个文本日志信息,其次,从每个聚类结果中的至少一个文本日志信息中确定目标文本内容,其中,目标文本日志内容为至少一个文本日志信息中重复出现的文本内容,之后,依据A个聚类结果中的每个聚类结果对应的目标文本内容生成与该聚类结果相对应的第一特征向量,得到A个第一特征向量。
可选地,检测系统在获取A个聚类结果之后,首先对每个聚类结果中包含的所有文本日志信息进行词频分析,将多个文本日志信息的同一位置上反复出现的词识别为常量,将多个文本日志信息的同一位置上出现多个不同的词,识别为变量,进而得到当前聚类结果对应的目标文本内容,然后,检测系统对目标文本内容进行分词处理和去停用词操作,得到多个文本单词,最后,统计多个文本单词中的每个文本单词在目标文本内容中出现的次数,进行向量转换,每个文本单词对应向量中的一个元素,文本单词出现的次数为对应元素的值,得到该聚类结果对应的第一特征向量。另外,检测系统根据B个目标指标单词中的每个目标指标单词生成一个聚类结果,得到B个聚类结果,其中,每个目标指标单词对应的聚类结果用于表征包含有该目标指标单词的至少一个指标日志信息,其次,从每个聚类结果中的至少一个指标日志信息中确定目标指标内容,其中,目标指标日志内容为至少一个指标日志信息中重复出现的指标内容,之后,依据B个聚类结果中的每个聚类结果对应的目标指标内容生成与该聚类结果相对应的第二特征向量,得到B个第二特征向量。
在一种可选的实施例中,检测系统从A个第一特征向量中随机确定K个第一特征向量作为K个第一聚类中心,其中,K为小于A的正整数,之后,为A个第一特征向量中除K个第一聚类中心之外的每个第一特征向量设置第一标签,其中,第一标签对应的第一特征向量为未分配至第一聚类的第一特征向量,第一聚类为任意一个第一聚类中心所对应的聚类。
另外,检测系统从B个第二特征向量中随机确定J个第二特征向量作为J个第二聚类中心,其中,J为小于B的正整数,之后,为B个第二特征向量中除J个第二聚类中心之外的每个第二特征向量设置第三标签,其中,第三标签对应的第二特征向量为未分配至第二聚类的第二特征向量,第二聚类为任意一个第二聚类中心所对应的聚类。
在一种可选的实施例中,图3是根据本申请实施例的一种可选的第一聚类生成方法的流程图,如图3所示,该方法包括如下步骤:
步骤一,将第一标签对应的第一特征向量作为待处理特征向量。
步骤二,将待处理特征向量分配至目标聚类中心所对应的第一聚类中。
具体地,目标聚类中心为K个第一聚类中心中与待处理特征向量距离最短的第一聚类中心。
步骤三,将待处理特征向量对应的第一标签更新为第二标签。
具体地,第二标签用于表征待处理特征向量已分配至目标聚类中心所对应的第一聚类中。
步骤四,重新计算目标聚类中心所对应的第一聚类的中心向量,并将目标聚类中心更新为计算得到的中心向量。
若所有对应第一标签的第一特征向量未均分配至第一聚类中,则重复执行上述步骤一至步骤四的过程,直至所有对应第一标签的第一特征向量均分配至第一聚类中为止。
另外,检测系统在生成第二聚类时,所述方法包括如下步骤:
步骤1,将第二标签对应的第二特征向量作为第一待处理特征向量。
步骤2,将第一待处理特征向量分配至第二目标聚类中心所对应的第二聚类中。
具体地,第二目标聚类中心为J个第二聚类中心中与第一待处理特征向量距离最短的第二聚类中心。
步骤3,将第一待处理特征向量对应的第三标签更新为第四标签。
具体地,第四标签用于表征第一待处理特征向量已分配至第二目标聚类中心所对应的第二聚类中。
步骤4,重新计算第二目标聚类中心所对应的第二聚类的中心向量,并将第二目标聚类中心更新为计算得到的中心向量。
步骤5,重复执行上述步骤1至步骤4的过程,直至所有对应第三标签的第二特征向量均分配至第二聚类中。
在一种可选的实施例中,图4是根据本申请实施例的一种可选的判断目标设备处于异常状态方法的流程图,如图4所示,该方法包括如下步骤:
步骤S401,将A个第一特征向量中每个第一特征向量的生成时间作为一个第一目标时间,得到A个第一目标时间。
步骤S402,将B个第二特征向量中每个第二特征向量的生成时间作为一个第二目标时间,得到B个第二目标时间。
步骤S403,基于A个第一目标时间和B个第二目标时间,对A个第一特征向量和B个第二特征向量进行时序处理,得到C个第三特征向量。
具体地,时序处理用于将生成时间相同的第一特征向量和第二特征向量拼接为一个第三特征向量。
可选地,检测系统在对生成时间相同的第一特征向量和第二特征进行向量拼接时,拼接的方式包括但不限于:水平拼接和垂直拼接。本检测系统优选为按行拼接,举例说明:第一特征向量a1=[1,2,3],第二特征向量b1=[5,7,9,10],按行拼接得到第三特征向量c1=[1,2,3,5,7,9,10],其中,第三特征向量可从时序维度表达多模态的信息,包括目标设备的文本日志信息和指标日志信息。
步骤S404,将第三特征向量与第三聚类中心的距离作为第三距离。
具体地,第三聚类中心为第三特征向量所在聚类的中心向量。
步骤S405,在第三距离大于预设距离的情况下,确定目标设备处于异常状态。在一种可选的实施例中,检测系统在第一距离、第二距离以及第三距离均小于或等于预设距离的情况下,确定目标设备处于正常状态。
根据本申请实施例的另一方面,还提供了另一种基于日志文件的设备检测方法,图5是根据本申请实施例的另一种可选的基于日志文件的设备检测方法的流程图,如图5所示,该方法包括如下步骤:基于目标设备的文本日志信息进行模板提取,得到目标设备对应的第一特征向量,基于目标设备的指标日志信息进行模板提取,得到目标设备对应的第二特征向量,对第一特征向量和第二特征向量进行特征融合,得到对应的第三特征向量,基于第一特征向量、第二特征向量和第三特征向量从多维度对目标设备进行异常检测。
在本申请中,首先,获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数,其次,根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容,然后,根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容,之后,计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,其中,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量,最后,在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
由上述内容可知,本申请通过分析目标设备的文本日志信息得到第一特征向量,通过分析目标设备的指标日志信息得到第二特征向量,实现了从文本日志信息维度和指标日志信息维度对目标设备进行分析的目的,相比于现有技术中仅从单维度对目标设备的设备状态进行评估,本申请的评估维度更加多元化,从而确保了更加全面的评估设备的设备状态,提高设备异常检测的准确率。
由此可见,本申请的技术方案实现了从多个维度对目标设备进行综合分析的目的,从而实现了提高设备异常检测的准确率的技术效果,进而解决了现有技术中在检测设备是否存在异常的过程中的准确率低的技术问题。
实施例2
根据本申请实施例,提供了一种基于日志文件的设备检测装置的实施例。图6是根据本申请实施例的一种可选的基于日志文件的设备检测装置的示意图,如图6所示,基于日志文件的设备检测装置包括:获取单元501、第一确定单元502、第二确定单元503、第一计算单元504和异常确定单元505。
具体地,获取单元,用于获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,文本日志信息用于记录目标设备执行操作命令时产生的操作记录信息,指标日志信息用于记录目标设备的性能指标信息,N为正整数,第一确定单元,用于根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,第一特征向量用于表征N个文本日志信息的至少两个文本日志信息中重复出现的文本内容,第二确定单元,用于根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,第二特征向量用于表征N个指标日志信息的至少两个指标日志信息中重复出现的文本内容,第一计算单元,用于计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离,其中,第一聚类中心为第一特征向量所在聚类的中心向量,第二聚类中心为第二特征向量所在聚类的中心向量,异常确定单元,用于在第一距离大于预设距离和/或第二距离大于预设距离的情况下,确定目标设备处于异常状态。
可选地,第一确定单元还包括:第一分词子单元、第一处理子单元、第一去重子单元以及第一确定子单元。
具体地,第一分词子单元,用于对N个文本日志信息中的每个文本日志信息进行分词处理,得到每个文本日志信息对应的X个单词,X为正整数,第一处理子单元,用于对X个单词进行去停用词处理,得到Y个第一单词,其中,去停用词处理用于过滤X个单词中不具有语义信息的单词,Y为小于或等于X的正整数,第一去重子单元,用于对Y个第一单词进行去重处理,得到A个目标单词,其中,去重处理用于从Y个第一单词中过滤与A个目标单词中任意一个目标单词相同的第一单词,第一确定子单元,用于根据A个目标单词确定A个第一特征向量,其中,每个目标单词对应一个第一特征向量。
可选地,第一确定子单元还包括:第一生成模块、第一确定模块以及第二生成模块。
具体地,第一生成模块,用于根据A个目标单词中的每个目标单词生成一个聚类结果,得到A个聚类结果,其中,每个目标单词对应的聚类结果用于表征包含有该目标单词的至少一个文本日志信息,第一确定模块,用于从每个聚类结果中的至少一个文本日志信息中确定目标文本内容,其中,目标文本日志内容为至少一个文本日志信息中重复出现的文本内容,第二生成模块,用于依据A个聚类结果中的每个聚类结果对应的目标文本内容生成与该聚类结果相对应的第一特征向量,得到A个第一特征向量。
可选地,基于日志文件的设备检测装置还包括:第三确定单元和第一设置单元。
具体地,第三确定单元,用于从A个第一特征向量中随机确定K个第一特征向量作为K个第一聚类中心,其中,K为小于A的正整数,第一设置单元,用于为A个第一特征向量中除K个第一聚类中心之外的每个第一特征向量设置第一标签,其中,第一标签对应的第一特征向量为未分配至第一聚类的第一特征向量,第一聚类为任意一个第一聚类中心所对应的聚类。
可选地,基于日志文件的设备检测装置还包括:待处理特征向量确定单元、第一分配单元、第一更新单元、第二计算单元以及重复单元。
具体地,待处理特征向量确定单元,用于将第一标签对应的第一特征向量作为待处理特征向量,第一分配单元,用于将待处理特征向量分配至目标聚类中心所对应的第一聚类中,其中,目标聚类中心为K个第一聚类中心中与待处理特征向量距离最短的第一聚类中心,第一更新单元,用于将待处理特征向量对应的第一标签更新为第二标签,其中,第二标签用于表征待处理特征向量已分配至目标聚类中心所对应的第一聚类中,第二计算单元,用于重新计算目标聚类中心所对应的第一聚类的中心向量,并将目标聚类中心更新为计算得到的中心向量,重复单元,用于重复执行上述待处理特征向量确定单元、第一分配单元、第一更新单元和第二计算单元执行的过程,直至所有对应第一标签的第一特征向量均分配至第一聚类中。
可选地,基于日志文件的设备检测装置还包括:第一目标时间确定单元、第二目标时间确定单元、时序处理单元、第三距离确定单元以及第四确定单元。
具体地,第一目标时间确定单元,用于将A个第一特征向量中每个第一特征向量的生成时间作为一个第一目标时间,得到A个第一目标时间,第二目标时间确定单元,用于将B个第二特征向量中每个第二特征向量的生成时间作为一个第二目标时间,得到B个第二目标时间,时序处理单元,用于基于A个第一目标时间和B个第二目标时间,对A个第一特征向量和B个第二特征向量进行时序处理,得到C个第三特征向量,其中,时序处理用于将生成时间相同的第一特征向量和第二特征向量拼接为一个第三特征向量,第三距离确定单元,用于将第三特征向量与第三聚类中心的距离作为第三距离,其中,第三聚类中心为第三特征向量所在聚类的中心向量,第四确定单元,用于在第三距离大于预设距离的情况下,确定目标设备处于异常状态。
可选地,基于日志文件的设备检测装置还包括:正常确定单元。
具体地,正常确定单元,用于在第一距离、第二距离以及第三距离均小于或等于预设距离的情况下,确定目标设备处于正常状态。
由上述内容可知,本申请通过分析目标设备的文本日志信息得到第一特征向量,通过分析目标设备的指标日志信息得到第二特征向量,实现了从文本日志信息维度和指标日志信息维度对目标设备进行分析的目的,相比于现有技术中仅从单维度对目标设备的设备状态进行评估,本申请的评估维度更加多元化,从而确保了更加全面的评估设备的设备状态,提高设备异常检测的准确率。
由此可见,本申请的技术方案实现了从多个维度对目标设备进行综合分析的目的,从而实现了提高设备异常检测的准确率的技术效果,进而解决了现有技术中在检测设备是否存在异常的过程中的准确率低的技术问题。
实施例3
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述实施例1中的基于日志文件的设备检测方法。
实施例4
根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述实施例1中的基于日志文件的设备检测方法。
图7是根据本申请实施例提供的一种电子设备的示意图,如图7所示,本申请实施例提供了一种电子设备,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述实施例1中的基于日志文件的设备检测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于日志文件的设备检测方法,其特征在于,包括:
获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,所述文本日志信息用于记录所述目标设备执行操作命令时产生的操作记录信息,所述指标日志信息用于记录所述目标设备的性能指标信息,N为正整数;
根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,所述第一特征向量用于表征所述N个文本日志信息的至少两个文本日志信息中重复出现的文本内容;
根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,所述第二特征向量用于表征所述N个指标日志信息的至少两个指标日志信息中重复出现的文本内容;
计算所述第一特征向量与第一聚类中心的第一距离以及所述第二特征向量与第二聚类中心的第二距离,其中,所述第一聚类中心为所述第一特征向量所在聚类的中心向量,所述第二聚类中心为所述第二特征向量所在聚类的中心向量;
在所述第一距离大于预设距离和/或所述第二距离大于所述预设距离的情况下,确定所述目标设备处于异常状态。
2.根据权利要求1所述的方法,其特征在于,根据N个文本日志信息确定A个第一特征向量,包括:
对所述N个文本日志信息中的每个文本日志信息进行分词处理,得到所述每个文本日志信息对应的X个单词,X为正整数;
对所述X个单词进行去停用词处理,得到Y个第一单词,其中,所述去停用词处理用于过滤所述X个单词中不具有语义信息的单词,Y为小于或等于X的正整数;
对所述Y个第一单词进行去重处理,得到A个目标单词,其中,所述去重处理用于从所述Y个第一单词中过滤与所述A个目标单词中任意一个目标单词相同的第一单词;
根据所述A个目标单词确定所述A个第一特征向量,其中,每个目标单词对应一个第一特征向量。
3.根据权利要求2所述的方法,其特征在于,根据所述A个目标单词确定所述A个第一特征向量,包括:
根据所述A个目标单词中的每个目标单词生成一个聚类结果,得到A个聚类结果,其中,所述每个目标单词对应的聚类结果用于表征包含有该目标单词的至少一个文本日志信息;
从每个聚类结果中的至少一个文本日志信息中确定目标文本内容,其中,所述目标文本日志内容为所述至少一个文本日志信息中重复出现的文本内容;
依据所述A个聚类结果中的每个聚类结果对应的目标文本内容生成与该聚类结果相对应的第一特征向量,得到A个第一特征向量。
4.根据权利要求1所述的方法,其特征在于,在计算第一特征向量与第一聚类中心的第一距离以及第二特征向量与第二聚类中心的第二距离之前,所述方法还包括:
从所述A个第一特征向量中随机确定K个第一特征向量作为K个第一聚类中心,其中,K为小于A的正整数;
为所述A个第一特征向量中除所述K个第一聚类中心之外的每个第一特征向量设置第一标签,其中,所述第一标签对应的第一特征向量为未分配至第一聚类的第一特征向量,所述第一聚类为任意一个第一聚类中心所对应的聚类。
5.根据权利要求4所述的方法,其特征在于,在为所述A个第一特征向量中除所述K个第一聚类中心之外的每个第一特征向量设置第一标签之后,所述方法还包括:
步骤一,将所述第一标签对应的所述第一特征向量作为待处理特征向量;
步骤二,将所述待处理特征向量分配至目标聚类中心所对应的第一聚类中,其中,所述目标聚类中心为所述K个第一聚类中心中与所述待处理特征向量距离最短的第一聚类中心;
步骤三,将所述待处理特征向量对应的所述第一标签更新为第二标签,其中,所述第二标签用于表征所述待处理特征向量已分配至所述目标聚类中心所对应的第一聚类中;
步骤四,重新计算所述目标聚类中心所对应的所述第一聚类的中心向量,并将所述目标聚类中心更新为计算得到的中心向量;
步骤五,重复执行上述步骤一至步骤四的过程,直至所有对应第一标签的第一特征向量均分配至第一聚类中。
6.根据权利要求1所述的方法,其特征在于,在根据N个指标日志内容确定B个第二特征向量之后,所述方法还包括:
将所述A个第一特征向量中每个第一特征向量的生成时间作为一个第一目标时间,得到A个第一目标时间;
将所述B个第二特征向量中每个第二特征向量的生成时间作为一个第二目标时间,得到B个第二目标时间;
基于所述A个第一目标时间和所述B个第二目标时间,对所述A个第一特征向量和所述B个第二特征向量进行时序处理,得到C个第三特征向量,其中,所述时序处理用于将所述生成时间相同的第一特征向量和第二特征向量拼接为一个第三特征向量;
将所述第三特征向量与第三聚类中心的距离作为第三距离,其中,所述第三聚类中心为所述第三特征向量所在聚类的中心向量;
在所述第三距离大于所述预设距离的情况下,确定所述目标设备处于异常状态。
7.根据权利要求6所述的方法,其特征在于,在将所述第三特征向量与第三聚类中心的距离作为第三距离之后,所述方法还包括:
在所述第一距离、所述第二距离以及所述第三距离均小于或等于所述预设距离的情况下,确定所述目标设备处于正常状态。
8.一种基于日志文件的设备检测装置,其特征在于,包括:
获取单元,用于获取目标设备的N个日志文件,其中,每个日志文件对应一个文本日志信息和一个指标日志信息,所述文本日志信息用于记录所述目标设备执行操作命令时产生的操作记录信息,所述指标日志信息用于记录所述目标设备的性能指标信息,N为正整数;
第一确定单元,用于根据N个文本日志信息确定A个第一特征向量,其中,A为正整数,所述第一特征向量用于表征所述N个文本日志信息的至少两个文本日志信息中重复出现的文本内容;
第二确定单元,用于根据N个指标日志内容确定B个第二特征向量,其中,B为正整数,所述第二特征向量用于表征所述N个指标日志信息的至少两个指标日志信息中重复出现的文本内容;
计算单元,用于计算所述第一特征向量与第一聚类中心的第一距离以及所述第二特征向量与第二聚类中心的第二距离,其中,所述第一聚类中心为所述第一特征向量所在聚类的中心向量,所述第二聚类中心为所述第二特征向量所在聚类的中心向量;
异常确定单元,用于在所述第一距离大于预设距离和/或所述第二距离大于所述预设距离的情况下,确定所述目标设备处于异常状态。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的基于日志文件的设备检测方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的基于日志文件的设备检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310842789.4A CN116680402A (zh) | 2023-07-10 | 2023-07-10 | 基于日志文件的设备检测方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310842789.4A CN116680402A (zh) | 2023-07-10 | 2023-07-10 | 基于日志文件的设备检测方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116680402A true CN116680402A (zh) | 2023-09-01 |
Family
ID=87785671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310842789.4A Pending CN116680402A (zh) | 2023-07-10 | 2023-07-10 | 基于日志文件的设备检测方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680402A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117850403A (zh) * | 2024-03-06 | 2024-04-09 | 西安晟昕科技股份有限公司 | 用于发控系统的动态检测方法 |
-
2023
- 2023-07-10 CN CN202310842789.4A patent/CN116680402A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117850403A (zh) * | 2024-03-06 | 2024-04-09 | 西安晟昕科技股份有限公司 | 用于发控系统的动态检测方法 |
CN117850403B (zh) * | 2024-03-06 | 2024-05-17 | 西安晟昕科技股份有限公司 | 用于发控系统的动态检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034809B (zh) | 区块链的生成方法、装置、区块链节点及存储介质 | |
US10402427B2 (en) | System and method for analyzing result of clustering massive data | |
CN104731896B (zh) | 一种数据处理方法及系统 | |
CN109558397B (zh) | 一种数据处理方法、装置、服务器及计算机存储介质 | |
CN108959337A (zh) | 大数据获取方法、装置、设备及存储介质 | |
CN107748739B (zh) | 一种短信文本模版的提取方法及相关装置 | |
CN116680402A (zh) | 基于日志文件的设备检测方法、装置以及电子设备 | |
CN111221722B (zh) | 行为检测方法、装置、电子设备及存储介质 | |
CN108241531A (zh) | 一种在集群中为虚拟机分配资源的方法和装置 | |
CN108009223B (zh) | 一种交易数据的一致性检测方法及装置 | |
EP3373162A1 (en) | Data persistence method and system in stream computing | |
CN110727691A (zh) | 一种数据解析校验方法及装置 | |
CN114691356A (zh) | 数据并行处理方法、装置、计算机设备及可读存储介质 | |
CN104506636B (zh) | 一种数据同步方法及装置 | |
US20140297662A1 (en) | Systems and methods for partial workflow matching | |
CN111400370A (zh) | 数据流通中的数据监控方法及装置、存储介质、服务器 | |
CN104572921B (zh) | 一种跨数据中心的数据同步方法和装置 | |
CN113094415A (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN110851437A (zh) | 一种存储方法、装置及设备 | |
CN115205032A (zh) | 征信查询方法、装置、设备及存储介质 | |
CN110929207B (zh) | 数据处理方法、装置和计算机可读存储介质 | |
CN111143582A (zh) | 一种双索引实时更新联想词的多媒体资源推荐方法及装置 | |
CN104298692B (zh) | 一种分布式搜索的方法及系统 | |
CN114490260B (zh) | 系统指标生成方法、装置、代理服务器及存储介质 | |
CN109936549A (zh) | 基于pki平台的审计数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |