CN114020715A - 一种日志数据的处理方法、装置、介质及设备 - Google Patents
一种日志数据的处理方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN114020715A CN114020715A CN202111272620.7A CN202111272620A CN114020715A CN 114020715 A CN114020715 A CN 114020715A CN 202111272620 A CN202111272620 A CN 202111272620A CN 114020715 A CN114020715 A CN 114020715A
- Authority
- CN
- China
- Prior art keywords
- log
- log data
- data
- training
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 11
- 238000000034 method Methods 0.000 claims abstract description 78
- 230000002776 aggregation Effects 0.000 claims abstract description 70
- 238000004220 aggregation Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims description 186
- 238000012360 testing method Methods 0.000 claims description 35
- 238000002372 labelling Methods 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000012423 maintenance Methods 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及计算机及人工智能技术领域,本实施例公开了一种日志数据的处理方法、装置、介质及设备。该方法包括:获取目标平台的待处理日志数据;从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。本技术方案,可以增强对日志数据处理的适用性,无需复杂的管理和维护,同时还能够提高日志数据处理的准确度。
Description
技术领域
本申请实施例涉及计算机及人工智能技术领域,尤其涉及一种日志数据的处理方法、装置、介质及设备。
背景技术
随着信息化时代的迅速发展,各种类型的系统应运而生。日志数据,以其能够准确的记录系统中的运行关键信息,成为了各个系统对运行过程中是否出现报错等监控的重要指标数据。
由于日志数据可能是单行的,可能是多行的,而且划分的依据往往各不相同。则日志数据中的报错信息等需要正确的配置来合并到一行,方便开发人员查看和定位问题。许多日志管理平台都采用各自规定的不同的日志合并配置来管理日志数据,当前日志的来源和格式越来越多,给相应的日志管理平台带来管理和维护的复杂程度激增,且日志数据的管理错误几率上升。因此,如何更高效并准确的来保存和管理日志数据,成为了一个亟待解决的技术难题。
发明内容
本申请实施例提供一种日志数据的处理方法、装置、介质及设备,可以增强对日志数据处理的适用性,无需复杂的管理和维护,同时还能够提高日志数据处理的准确度。
第一方面,本申请实施例提供了一种日志数据的处理方法,所述方法包括:
获取目标平台的待处理日志数据;
从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
进一步的,对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果,包括:
若为单行日志类型,则确定当前行的日志数据为完整数据;
若为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
进一步的,所述日志合并模型的训练过程,包括:
采集至少一个平台的日志数据,并从所述日志数据划分出训练集;
对所述训练集中每行日志数据进行特征字符提取;
根据所述特征字符构建各行日志数据的特征码;
采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集;
根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
进一步的,所述日志合并模型的构建过程,包括:
确定所述基于簇中心的聚合模型和基于密度的聚合模型的初始合并权重;
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重,包括:
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,分别确定基于簇中心的聚合模型的第一准确度,以及基于密度的聚合模型的第二准确度;
根据所述第一准确度和所述第二准确度的大小关系,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,在得到训练结果之后,所述方法还包括:
从所述日志数据划分出测试集;
对所述测试集的日志数据进行特征字符提取;
根据所述特征字符构建所述日志数据的特征码;
将所述测试集的日志数据的特征码输入至日志合并模型,得到测试特征集;
根据所述测试特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,确定所述日志合并模型是否符合准确率要求;
若符合,则确定所述训练结果可用。
进一步的,对所述训练集中每行日志数据进行特征字符提取,包括:
根据预先确定的至少两个特征字符数量,从每行日志数据的首位特征字符开始,确定目标字符;
将所述目标字符确定为特征字符,并进行各特征字符数量特征字符的提取;
相应的,在得到各特征字符数量的训练结果之后,所述方法还包括:
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量。
进一步的,在根据各特征字符数量的训练结果的准确度,确定目标特征字符数量之前,所述方法还包括:
获取各特征字符数量的训练耗时因子和训练算力因子;
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量,包括:
根据各特征字符数量的训练结果的准确度,以及所述训练耗时因子和所述训练算力因子,确定目标特征字符数量。
第二方面,本申请实施例提供了一种日志数据的处理装置,所述装置包括:
待处理日志数据获取模块,用于获取目标平台的待处理日志数据;
特征码构建模块,用于从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
特征码输入模块,用于将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
日志类型输出模块,用于根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
日志数据处理模块,用于对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
进一步的,所述日志数据处理模块,具体用于:
若为单行日志类型,则确定当前行的日志数据为完整数据;
若为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
进一步的,所述装置还包括日志合并模型训练模块,用于:
采集至少一个平台的日志数据,并从所述日志数据划分出训练集;
对所述训练集中每行日志数据进行特征字符提取;
根据所述特征字符构建各行日志数据的特征码;
采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集;
根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
进一步的,所述装置还包括日志合并模型构建模块,包括:
初始合并权重确定单元,用于确定所述基于簇中心的聚合模型和基于密度的聚合模型的初始合并权重;
最终合并权重计算单元,用于根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,所述最终合并权重计算单元,具体用于:
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,分别确定基于簇中心的聚合模型的第一准确度,以及基于密度的聚合模型的第二准确度;
根据所述第一准确度和所述第二准确度的大小关系,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,所述装置还包括日志合并模型测试模块,用于:
从所述日志数据划分出测试集;
对所述测试集的日志数据进行特征字符提取;
根据所述特征字符构建所述日志数据的特征码;
将所述测试集的日志数据的特征码输入至日志合并模型,得到测试特征集;
根据所述测试特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,确定所述日志合并模型是否符合准确率要求;
若符合,则确定所述训练结果可用。
进一步的,所述日志合并模型训练模块,还用于:
根据预先确定的至少两个特征字符数量,从每行日志数据的首位特征字符开始,确定目标字符;
将所述目标字符确定为特征字符,并进行各特征字符数量特征字符的提取;
相应的,在得到各特征字符数量的训练结果之后,所述方法还包括:
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量。
进一步的,所述装置还包括特征字符数量选择模块,用于:
获取各特征字符数量的训练耗时因子和训练算力因子;
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量,包括:
根据各特征字符数量的训练结果的准确度,以及所述训练耗时因子和所述训练算力因子,确定目标特征字符数量。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的日志数据的处理方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的日志数据的处理方法。
本申请实施例所提供的技术方案,通过采用两种聚合模型合并而成的日志合并模型,对每行日志进行识别,可以准确的确定日志类型为单行日志或多行日志,然后再对多行日志进行合并处理,得到最终的日志处理结果。通过执行本方案可以增强对日志数据处理的适用性,无需复杂的管理和维护,同时还能够提高日志数据处理的准确度。
附图说明
图1是本申请实施例一提供的日志数据的处理方法的流程图;
图2是本发明实施例二提供的日志合并模型的训练过程的流程图;
图3是本发明实施例三提供的一种日志数据的处理装置的结构框图;
图4是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的日志数据的处理方法的流程图,本实施例可适用于对日志数据进行处理的场景,该方法可以由本申请实施例所提供的日志数据的处理装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于管理连接池或者管理数据库的电子设备中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
如图1所示,所述日志数据的处理方法包括:
S110,获取目标平台的待处理日志数据。
本方案中,目标平台可以是任意一个产生日志数据的平台,待处理日志数据可以是该平台产生的多条日志数据。由于日志数据的类型众多,且每一条日志数据记录的内容可能各不相同,因此,需要对该目标平台产生的大量的日志数据进行处理,确定其中的单行日志和多行日志,才能够构成每条完整的日志数据。此处,构建完整日志数据是对日志数据进行管理的基础,否则,容易错误的将单行日志识别为多行日志,与其他的多行日志合并,这样会造成日志数据的内容存在重复,无法准确的读取日志数据的信息。如果错误的将多行日志识别为单行日志,会造成日志数据的内容存在遗失,也会无法准确的读取日志数据的信息。
本方案中,获取方式可以是通过批量传输、实时同步等方式,具体的,可以通过目标平台提供的数据传输接口来对日志数据进行传输。
可以理解的,本方案的执行主体可以是任何一个具有日志处理能力的电子设备。该电子设备可以是日志管理平台的一部分或者全部计算设备。该电子设备可以用来获取和处理日志数据,得到日志数据的处理结果。
S120,从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码。
其中,日志数据是以行的形式进行记录的,如果日志数据为单行日志数据,则一行记录的是一条完整的日志数据,如果日志数据为多行日志数据,则一条完整的日志数据会需要记录为多行。
从每行数据中提取特征字符,可以是一行日志数据的全部字符,也可以是部分字符,例如前20位字符、前50位字符或者全部字符。此处日志数据的字符可以包括数字、字母等字符。构建所述待处理日志数据的特征码,可以是将特征字符进行转换,得到的特征码。此处可以将日志数据转换为二进制字符的特征码,则前20位字符可以经过转换,得到每一行日志数据的20位由“0”和“1”构成的特征码。
S130,将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型。
本方案中,日志合并模型可以是由基于簇中心的聚合模型和基于密度的聚合模型合并而成的。两者的合并方式可以是基于各自的权重进行合并。簇中心算法是KMeans聚类算法中的一种,在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的聚类,这对于带有噪音点的数据起着重要的作用。
S140,根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型。
本方案中,可以根据日志合并模型的输出结果,确定每行数据的聚类结果,并且可以得到当前各个聚类的日志类型。例如输出四个聚类,其中两个为单行日志类型,两个为多行日志类型。
S150,对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
本方案中,由于单行日志和多行日志都是逐条产生并记录的,因此,如果当前行数据为单行日志,则可以直接确定为一个完整的日志数据,如果当前行为多行日志,则可以确定上一行是否为多行,若是则和上一行合并,若不是,则继续判断下一行是否为多行日志,如果是,则将下一行合并至当前行。
一种情况下,可能会存在上一行为单行日志,当前行位多行日志,下一行为单行日志的情况。这种情况下,可以认为是因为出现了识别错误造成的,因为多行日志会连续占据两行及以上,如果只有一行是多行日志,上下相邻行为单行日志,则确定多行日志无法合并,造成日志识别错误,从而可以产生报错信息。
在本方案中,可选的,对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果,包括:
若为单行日志类型,则确定当前行的日志数据为完整数据;
若为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
可以理解的,如果为单行日志类型,则确定当前行的日志数据为完整数据,供后续日志数据的内容识别等所使用。如果为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
本方案中,通过对单行日志和多行日志的识别,可以确定各个完整的日志数据,以供后续的内容识别、报错日志提取以及操作日志划分等所使用,从而可以提高日志数据的管理效率。
本申请实施例所提供的技术方案,获取目标平台的待处理日志数据;从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。通过执行本方案可以增强对日志数据处理的适用性,无需复杂的管理和维护,同时还能够提高日志数据处理的准确度。
实施例二
图2是本发明实施例二提供的日志合并模型的训练过程的流程图,本实施例以上述实施例为基础进行优化。具体优化为:所述日志合并模型的训练过程,包括:采集至少一个平台的日志数据,并从所述日志数据划分出训练集;对所述训练集中每行日志数据进行特征字符提取;根据所述特征字符构建各行日志数据的特征码;采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集;根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
如图2所示,本实施例的方法具体包括如下步骤:
S210,采集至少一个平台的日志数据,并从所述日志数据划分出训练集。
其中,可以在采集之后,将日志数据划分出训练集。
具体的,可以根据训练类型为有监督训练或者为无监督训练,若为有监督训练,则需要对每一个日志数据进行标签的标注,例如标注为单行日志标签和多行日志标签。标注过程可以是由工作人员来标注的,工作人员可以在本方案的电子设备中录入。电子设备可以根据录入结果将携带有标签的日志数据划分出训练集。
本方案,除了划分出训练集,还可以划分为测试集,测试集和训练集可以分别用于对模型进行训练和测试。而且测试的环节可以与训练的环节相类似,并根据得到的结果与标注的标签相比较,确定模型识别的准确性,从而确定模型是否可用。
S220,对所述训练集中每行日志数据进行特征字符提取。
提出提取特征字符的方式与上述实施例的方案相类似,不再赘述。
S230,根据所述特征字符构建各行日志数据的特征码。
本方案中,具体的,特征码的构建,是基于特征字符转换得到的。具体的,日志中数字、字母不一样但不影响日志的格式,把前N个字符中的数字都替换成0,字母都替换为1,特殊符号替换为对应的ASCII码,中文替换为2,替换后得到前N个字符对应的特征码。
S240,采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集。
本方案中,可以将训练集的日志数据输入值日志合并模型,并进行聚类,以得到训练特征集。此处训练特征集可以是由日志合并模型输出的,基于训练集的日志数据识别得到的识别结果,例如得到簇的划分结果,以及各个簇的日志类型识别结果。
本方案中,基于簇中心的聚合模型和基于密度的聚合模型的内部参数可以是初始值,并且基于簇中心的聚合模型和基于密度的聚合模型的加权系数也可以是初始值,经过训练之后,可以对基于簇中心的聚合模型和基于密度的聚合模型的内部初始值和加权初始值进行迭代,得到一个最终的内部初始值和加权初始值,使得训练集中的日志数据的日志分类结果与标签相对应。
在本技术方案中,所述日志合并模型的构建过程,包括:
确定所述基于簇中心的聚合模型和基于密度的聚合模型的初始合并权重;
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
其中,初始合并权重可以是上述的权重初始值。可以用来确定基于簇中心的聚合模型和基于密度的聚合模型两者之间对输出结果的影响占比。
根据对所述训练集中每行日志数据的识别结果,可以在迭代过程中各个合并权重对应的日志数据识别结果的准确度。具体的,准确度可以由训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果比较确定。可以理解的,可将准确度最高的作为最终选用的合并权重,即最终合并权重。
本方案这样设置的好处是可以将两者的合并权重作为训练迭代过程中的一个参数,一并训练得到,避免设定权重不适合导致的影响模型的准确性问题,提高训练效率,并且去除主观因素影响,得到更加稳定的日志合并模型。
在上述技术方案中,可选的,根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重,包括:
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,分别确定基于簇中心的聚合模型的第一准确度,以及基于密度的聚合模型的第二准确度;
根据所述第一准确度和所述第二准确度的大小关系,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
在本方案中,可以将训练集中的每行日志数据得到识别结果与日志数据的标签进行比较,并分别采用基于簇中心的聚合模型得到第一识别结果,采用基于密度的聚合模型得到第二识别结果。并分别根据标签数据与第一识别结果和第二识别结果进行比较,以得出每一种聚合模型的准确度。在此基础上,再根据两者的准确度,确定如何对初始合并权重进行调整。
本方案这样设置的好处是既可以避免基于簇中心的聚合模型对噪声的包容性不够的问题,又能够避免基于密度的聚合模型被噪声所带偏,从而进行加权合并,得到更加稳健的日志合并模型。
S250,根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
本方案中,可以通过日志合并模型,输出训练特征集。其中训练特征集是以集合的形式或者以簇的形式输出的,对于每个训练特征集来说,日志合并模型可以标定该集合为单行日志特征集或者为多行日志特征集。
相应的,可以根据所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
在上述各技术方案的基础上,可选的,在得到训练结果之后,所述方法还包括:
从所述日志数据划分出测试集;
对所述测试集的日志数据进行特征字符提取;
根据所述特征字符构建所述日志数据的特征码;
将所述测试集的日志数据的特征码输入至日志合并模型,得到测试特征集;
根据所述测试特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,确定所述日志合并模型是否符合准确率要求;
若符合,则确定所述训练结果可用。
其中,可以基于预先划分出来的测试集对训练结果进行测试,以确定训练得到的日志合并模型是否能够达到准确率要求。由于测试环节所执行的过程是与训练环节相同的,因此此处不再赘述。
本方案通过这样的设置,可以提高训练过程所得到的训练结果的准确率,经过测试后可以确定是否能够将训练结果上线使用。
本实施例在上述实施例的基础上,提供了对于日志合并模型的训练方法以及测试方法。通过采用本方案提供的具体方法,可以有效的提高日志合并模型的训练效果,同时可以提高日志合并模型的兼容性和避免受主观因素影响导致的偏差。
在上述各实施例的基础上,可选的,对所述训练集中每行日志数据进行特征字符提取,包括:
根据预先确定的至少两个特征字符数量,从每行日志数据的首位特征字符开始,确定目标字符;
将所述目标字符确定为特征字符,并进行各特征字符数量特征字符的提取;
相应的,在得到各特征字符数量的训练结果之后,所述方法还包括:
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量。
其中,至少两个特征字符数量,可以是10个、20个、30个、50个和100个。也就是五个数量,并针对每个数量分别进行训练。即分别提取每行日志中的前10个、前20个、前30个、前50个和前100个。在训练之后,得到各个数量所对应的训练结果的准确度,并采用准确度最高的作为最终的目标特征字符数量。例如前10个、前20个、前30个、前50个和前100个中,前50个字符提取后采用日志合并模型输出得到的结果最准确,则确定特征字符的提取方式为提取前50个。
本方案通过这样的设置,可以将特征字符的提取数量采用科学的方式提取得到,可以提取到能够准确体现出每行日志的日志类型的特征字符数量,提高了日志合并模型的准确性。
在上述技术方案的基础上,可选的,在根据各特征字符数量的训练结果的准确度,确定目标特征字符数量之前,所述方法还包括:
获取各特征字符数量的训练耗时因子和训练算力因子;
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量,包括:
根据各特征字符数量的训练结果的准确度,以及所述训练耗时因子和所述训练算力因子,确定目标特征字符数量。
其中,由于特征字符数量的不同,训练耗时肯定也会不同。例如前10个特征字符耗时最短,前30个特征字符训练耗时居中,而前100个特征字符耗时最长。训练算力因子也是一样的,如果特征字符数量越少,训练过程所使用到的算力也越少。在实际训练的过程中,如果只追求结果的准确度,可能存在准确度随着数量的增加而提高的现象,但是由于数量的增加会对训练消耗时长和训练消耗算力的急剧增加,而准确度增加的幅度确不明显,在这种情况下,可以增加参考训练耗时因子和训练算力因子,以得到更加高效的日志合并模型。
为了便于本领域技术人员理解本方案,本实施例还提供了一种优选的实施方案。
该方法基于人工智能的自动化告警预测方法,针对海量运维数据,采用机器学习和人工智能算法对日志数据进行聚类分析,提取日志的规律信息,采用相似性度量方式来合并日志。
具体步骤如下:
预处理:数据清洗,根据日志类型去除掉不需要合并的syslog、kafka等日志信息。
步骤1:采集历史日志数据作为训练集。每一种日志格式都是固定的,因此判断每行日志是否是单行日志,根据每行日志的前N个字符就可以很快速的判断出来。根据历史日志数据集,提取每行日志的前10,前20,前30,前50,前100个字符,分别作为日志单行判断的依据。
日志中数字、字母不一样但不影响日志的格式,把前N个字符中的数字都替换成0,字母都替换为1,特殊符号替换为对应的ASCII码,中文替换为2,替换后得到前N个字符对应的特征码。
步骤2:使用K-means算法对前N个字符对应的特征码分别做聚类,得到前N个字符对应的特征集。
步骤3:使用基于簇中心的聚合模型,把训练日志特征集分为两类,是单行的数据,不是单行的数据,把特征集和单行数据对应关系的模型保存下来。根据特征值和准确度统计,基于簇中心的聚类存在离群的噪点数据处理不理想。
步骤4:使用基于密度的聚合模型,把训练日志特征集分为两类,是单行的数据,不是单行的数据,把特征集和单行数据对应关系的模型保存下来。
步骤5:合并基于簇中心的聚合模型和基于密度的聚合模型,生成日志合并模型。合并后发现,可以发现任意形状的聚类,而且对噪点数据不敏感。
步骤6:加入生产数据,提取特征码,验证模型的效率。对比这5种模型的准确率,发现前30个字符,计算效率和准确度都是刚好的。前10和20个字符,数据太少,准确度不高,前50和100个字符,计算量较大,速度比较慢,准确度提升不高。
通过上述方法,可以对日志进行自动合并,从而提高日志的可查看性,从而可以使开发和运维人员对于设备或服务的日志进行更好的排查,诊断和分析,进而为公司或企业减少因故障发生而造成的经济损失;降低平台管理的难度,进而为公司或企业减少人力成本。
实施例三
图3是本发明实施例三提供的一种日志数据的处理装置的结构框图,该装置可执行本发明任意实施例所提供的日志数据的处理方法,具备执行方法相应的功能模块和有益效果。
如图3所示,该装置包括:
待处理日志数据获取模块310,用于获取目标平台的待处理日志数据;
特征码构建模块320,用于从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
特征码输入模块330,用于将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
日志类型输出模块340,用于根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
日志数据处理模块350,用于对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
进一步的,所述日志数据处理模块,具体用于:
若为单行日志类型,则确定当前行的日志数据为完整数据;
若为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
进一步的,所述装置还包括日志合并模型训练模块,用于:
采集至少一个平台的日志数据,并从所述日志数据划分出训练集;
对所述训练集中每行日志数据进行特征字符提取;
根据所述特征字符构建各行日志数据的特征码;
采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集;
根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
进一步的,所述装置还包括日志合并模型构建模块,包括:
初始合并权重确定单元,用于确定所述基于簇中心的聚合模型和基于密度的聚合模型的初始合并权重;
最终合并权重计算单元,用于根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,所述最终合并权重计算单元,具体用于:
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,分别确定基于簇中心的聚合模型的第一准确度,以及基于密度的聚合模型的第二准确度;
根据所述第一准确度和所述第二准确度的大小关系,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
进一步的,所述装置还包括日志合并模型测试模块,用于:
从所述日志数据划分出测试集;
对所述测试集的日志数据进行特征字符提取;
根据所述特征字符构建所述日志数据的特征码;
将所述测试集的日志数据的特征码输入至日志合并模型,得到测试特征集;
根据所述测试特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,确定所述日志合并模型是否符合准确率要求;
若符合,则确定所述训练结果可用。
进一步的,所述日志合并模型训练模块,还用于:
根据预先确定的至少两个特征字符数量,从每行日志数据的首位特征字符开始,确定目标字符;
将所述目标字符确定为特征字符,并进行各特征字符数量特征字符的提取;
相应的,在得到各特征字符数量的训练结果之后,所述方法还包括:
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量。
进一步的,所述装置还包括特征字符数量选择模块,用于:
获取各特征字符数量的训练耗时因子和训练算力因子;
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量,包括:
根据各特征字符数量的训练结果的准确度,以及所述训练耗时因子和所述训练算力因子,确定目标特征字符数量。
上述产品可执行本申请实施例所提供的日志数据的处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的日志数据的处理方法:
获取目标平台的待处理日志数据;
从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
实施例五
本申请实施例五提供了一种电子设备。图4是本申请实施例五提供的一种电子设备的结构示意图。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的日志数据的处理方法,该方法包括:
获取目标平台的待处理日志数据;
从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
当然,本领域技术人员可以理解,处理器420还实现本申请任意实施例所提供的日志数据的处理方法的技术方案。
图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的日志数据的处理方法对应的程序指令。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以增强对日志数据处理的适用性,无需复杂的管理和维护,同时还能够提高日志数据处理的准确度。
上述实施例中提供的日志数据的处理装置、介质及电子设备可执行本申请任意实施例所提供的日志数据的处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的日志数据的处理方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (11)
1.一种日志数据的处理方法,其特征在于,所述方法包括:
获取目标平台的待处理日志数据;
从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
2.根据权利要求1所述的方法,其特征在于,对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果,包括:
若为单行日志类型,则确定当前行的日志数据为完整数据;
若为多行日志类型,则对当前行的日志数据与相邻行的多行日志类型的日志数据进行合并,以得到完整数据。
3.根据权利要求1所述的方法,其特征在于,所述日志合并模型的训练过程,包括:
采集至少一个平台的日志数据,并从所述日志数据划分出训练集;
对所述训练集中每行日志数据进行特征字符提取;
根据所述特征字符构建各行日志数据的特征码;
采用由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型,对所述特征码进行聚类,得到训练特征集;
根据训练特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型进行训练,以得到训练结果。
4.根据权利要求3所述的方法,其特征在于,所述日志合并模型的构建过程,包括:
确定所述基于簇中心的聚合模型和基于密度的聚合模型的初始合并权重;
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
5.根据权利要求4所述的方法,其特征在于,根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,对所述日志合并模型的初始合并权重进行调节得到最终合并权重,包括:
根据对所述训练集中每行日志数据的识别结果,以及所述训练集中日志数据的预先标注结果,分别确定基于簇中心的聚合模型的第一准确度,以及基于密度的聚合模型的第二准确度;
根据所述第一准确度和所述第二准确度的大小关系,对所述日志合并模型的初始合并权重进行调节得到最终合并权重。
6.根据权利要求3所述的方法,其特征在于,在得到训练结果之后,所述方法还包括:
从所述日志数据划分出测试集;
对所述测试集的日志数据进行特征字符提取;
根据所述特征字符构建所述日志数据的特征码;
将所述测试集的日志数据的特征码输入至日志合并模型,得到测试特征集;
根据所述测试特征集的单行日志特征集和多行日志特征集的识别结果,以及所述训练集中日志数据的预先标注结果,确定所述日志合并模型是否符合准确率要求;
若符合,则确定所述训练结果可用。
7.根据权利要求3所述的方法,其特征在于,对所述训练集中每行日志数据进行特征字符提取,包括:
根据预先确定的至少两个特征字符数量,从每行日志数据的首位特征字符开始,确定目标字符;
将所述目标字符确定为特征字符,并进行各特征字符数量特征字符的提取;
相应的,在得到各特征字符数量的训练结果之后,所述方法还包括:
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量。
8.根据权利要求7所述的方法,其特征在于,在根据各特征字符数量的训练结果的准确度,确定目标特征字符数量之前,所述方法还包括:
获取各特征字符数量的训练耗时因子和训练算力因子;
根据各特征字符数量的训练结果的准确度,确定目标特征字符数量,包括:
根据各特征字符数量的训练结果的准确度,以及所述训练耗时因子和所述训练算力因子,确定目标特征字符数量。
9.一种日志数据的处理装置,其特征在于,所述装置包括:
待处理日志数据获取模块,用于获取目标平台的待处理日志数据;
特征码构建模块,用于从所述待处理日志数据的每行数据中提取特征字符,构建所述待处理日志数据的特征码;
特征码输入模块,用于将所述特征码输入至预先由基于簇中心的聚合模型和基于密度的聚合模型合并而成的日志合并模型;
日志类型输出模块,用于根据所述日志合并模型的输出结果,确定所述待处理日志数据的每行数据的日志类型;其中,所述日志类型包括单行日志类型和多行日志类型;
日志数据处理模块,用于对多行日志类型的数据进行合并处理,得到所述待处理日志数据的处理结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的日志数据的处理方法。
11.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的日志数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272620.7A CN114020715A (zh) | 2021-10-29 | 2021-10-29 | 一种日志数据的处理方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272620.7A CN114020715A (zh) | 2021-10-29 | 2021-10-29 | 一种日志数据的处理方法、装置、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020715A true CN114020715A (zh) | 2022-02-08 |
Family
ID=80058917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111272620.7A Pending CN114020715A (zh) | 2021-10-29 | 2021-10-29 | 一种日志数据的处理方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020715A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969335A (zh) * | 2022-05-20 | 2022-08-30 | 北京九章云极科技有限公司 | 异常日志检测方法、装置、电子设备及可读存储介质 |
CN115002243A (zh) * | 2022-08-02 | 2022-09-02 | 上海秉匠信息科技有限公司 | 一种数据处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108667678A (zh) * | 2017-03-29 | 2018-10-16 | 中国移动通信集团设计院有限公司 | 一种基于大数据的运维日志安全检测方法及装置 |
CN109542750A (zh) * | 2018-11-26 | 2019-03-29 | 深圳天源迪科信息技术股份有限公司 | 分布式日志系统 |
US20210157665A1 (en) * | 2019-11-26 | 2021-05-27 | Optum Technology, Inc. | Log message analysis and machine-learning based systems and methods for predicting computer software process failures |
-
2021
- 2021-10-29 CN CN202111272620.7A patent/CN114020715A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108667678A (zh) * | 2017-03-29 | 2018-10-16 | 中国移动通信集团设计院有限公司 | 一种基于大数据的运维日志安全检测方法及装置 |
CN109542750A (zh) * | 2018-11-26 | 2019-03-29 | 深圳天源迪科信息技术股份有限公司 | 分布式日志系统 |
US20210157665A1 (en) * | 2019-11-26 | 2021-05-27 | Optum Technology, Inc. | Log message analysis and machine-learning based systems and methods for predicting computer software process failures |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969335A (zh) * | 2022-05-20 | 2022-08-30 | 北京九章云极科技有限公司 | 异常日志检测方法、装置、电子设备及可读存储介质 |
CN114969335B (zh) * | 2022-05-20 | 2024-02-20 | 北京九章云极科技有限公司 | 异常日志检测方法、装置、电子设备及可读存储介质 |
CN115002243A (zh) * | 2022-08-02 | 2022-09-02 | 上海秉匠信息科技有限公司 | 一种数据处理方法及装置 |
CN115002243B (zh) * | 2022-08-02 | 2022-11-01 | 上海秉匠信息科技有限公司 | 一种数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
CN110659173A (zh) | 一种运维系统及方法 | |
CN114020715A (zh) | 一种日志数据的处理方法、装置、介质及设备 | |
CN113282461A (zh) | 传输网的告警识别方法和装置 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN115122155A (zh) | 基于工业互联网大数据的机床远程诊断方法及系统 | |
CN113537337A (zh) | 训练方法、异常检测方法、装置、设备和存储介质 | |
CN112241606A (zh) | 基于cps决策模块的船舶智能设备运维的协同决策方法 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
CN112966957A (zh) | 一种数据链路异常定位方法、装置、电子设备及存储介质 | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN114328106A (zh) | 日志数据处理方法、装置、设备及存储介质 | |
CN116361147A (zh) | 测试用例根因定位方法及其装置、设备、介质、产品 | |
CN116523284A (zh) | 基于机器学习的业务操作流程自动化评估方法、系统 | |
CN117592870A (zh) | 基于水环境监测信息的综合分析系统 | |
CN116539994A (zh) | 基于多源时间序列数据的变电站主设备运行状态检测方法 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN115858606A (zh) | 时序数据的异常检测方法、装置、设备及存储介质 | |
CN113313304A (zh) | 一种基于大数据决策树的电网事故异常分析方法及系统 | |
CN111290953B (zh) | 分析测试日志的方法与装置 | |
CN117421231A (zh) | 一种软件自动化测试方法、系统和装置 | |
CN116432099A (zh) | 日志分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |