CN113064791A

CN113064791A - 基于海量日志数据实时监控的分散标签特征提取方法

Info

Publication number: CN113064791A
Application number: CN202110318883.0A
Authority: CN
Inventors: 王建宁
Original assignee: Shanghai Bailei Technology Co ltd
Current assignee: Shanghai Bailei Technology Co ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-07-02

Abstract

本发明公开了基于海量日志数据实时监控的分散标签特征提取方法，包括以下步骤：S1.建立规范化的海量日志数据；S2.对海量日志数据进行处理；S3.对处理后的海量日志数据进行划分；S4.通过划分后的日志数据进行监控；S5.根据日志数据构建标签特征；S6.将标签特征中关键信息的字符串转换为正则表达式；S7.提取标签特征。本发明的提取方法，能够通过海量日志数据进行实时监控，保证了数据信息的实时性和有效性，有利于数据信息的高效检索及查询，同时基于海量日志数据，建立了软件运行中正确的标签特征，便于维护人员的人工的检查和理解，减少人工特征定义的失误，降低频繁修改的人力和时间成本。

Description

基于海量日志数据实时监控的分散标签特征提取方法

技术领域

本发明属于数据处理技术领域，具体涉及基于海量日志数据实时监控的分散标签特征提取方法。

背景技术

现代软件日益复杂，规模日益庞大，导致软件维护成本攀升。分布式及异构软件系统的广泛使用，使得人工的监控软件运行状态和发现运行故障变得极为困难。日志是软件运行时不可或缺的输出形式。为了尽早发现分布式系统的故障所在，减少潜在的宕机风险，大量的分布式系统通过实时的日志输出保存运行时软件状态，为维护人员提供数据基础，然而市面上各种的基于海量日志数据实时监控的分散标签特征提取方法仍存在各种各样的问题。

如授权公告号为CN111259917A所公开的一种基于局部近邻成分分析的图像特征提取方法，其虽然实现了可以使得同类样本的特征向量在低维空间中聚集，不同类样本的特征向量在低维空间中分散，从而使得原始数据在低维空间中具备明显的聚类结构，能够更加有效地用于图像聚类和图像检索，但是并未解决现有的基于海量日志数据实时监控的分散标签特征提取方法还存在一些问题：不能保证日志数据信息的实时性和有效性，同时不方便进行检查，为此我们提出基于海量日志数据实时监控的分散标签特征提取方法。

发明内容

本发明的目的在于提供基于海量日志数据实时监控的分散标签特征提取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于海量日志数据实时监控的分散标签特征提取方法，包括以下步骤：

S1.建立规范化的海量日志数据；

S2.对海量日志数据进行处理；

S3.对处理后的海量日志数据进行划分；

S4.通过划分后的日志数据进行监控；

S5.根据日志数据构建标签特征；

S6.将标签特征中关键信息的字符串转换为正则表达式；

S7.提取标签特征。

优选的，所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。

优选的，所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗，筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

优选的，所述S2中对海量日志数据进行处理的方法包括以下步骤：

S101.获取设定时间段内的日志文件，所述日志文件包括非结构化日志数据；

S102.对所述非结构化日志数据进行识别，确定与所述非结构化日志数据对应的特征值；

S103.从所述非结构化日志数据中确定出有效的非结构化日志数据；

S104.根据所述特征值，对所述有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，其中，M为正整数。

优选的，所述S2中对海量日志数据进行处理的方法还包括：根据所述结构化日志数据中的时间戳信息，对所述M个结构化日志数据进行聚合运算，确定所述结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。

优选的，所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块，所述采集模块用于对海量日志数据进行获取，所述处理模块用于从获取的海量日志数据中提取信息，进行监控，所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级，同时利用MySQL服务机制实现分布式锁，在任务调度过程中利用获取锁提高调度效率，降低设备传输存储的资源消耗。

优选的，所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块，所述确定模块用于对获取的海量日志数据进行确定，避免数据的损失。

优选的，所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式，所有的正则表达式转变成更短的正则表达式；使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。

优选的，所述S7中提取标签特征的方法包括将序列规则输出到JSON文件，JSON文件用于新的日志文件；如果当前的日志信息匹配JSON文件中的某一项，则日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

与现有技术相比，本发明的有益效果是：本发明的提取方法，能够通过海量日志数据进行实时监控，保证了数据信息的实时性和有效性，有利于数据信息的高效检索及查询，同时基于海量日志数据，建立了软件运行中正确的标签特征，便于维护人员的人工的检查和理解，减少人工特征定义的失误，降低频繁修改的人力和时间成本。

附图说明

图1为本发明的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明提供一种技术方案：基于海量日志数据实时监控的分散标签特征提取方法，包括以下步骤：

S1.建立规范化的海量日志数据；

S2.对海量日志数据进行处理；

S3.对处理后的海量日志数据进行划分；

S4.通过划分后的日志数据进行监控；

S5.根据日志数据构建标签特征；

S6.将标签特征中关键信息的字符串转换为正则表达式；

S7.提取标签特征。

本实施例中，优选的，所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。

本实施例中，优选的，所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗，筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

本实施例中，优选的，所述S2中对海量日志数据进行处理的方法包括以下步骤：

本实施例中，优选的，所述S2中对海量日志数据进行处理的方法还包括：根据所述结构化日志数据中的时间戳信息，对所述M个结构化日志数据进行聚合运算，确定所述结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。

本实施例中，优选的，所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块，所述采集模块用于对海量日志数据进行获取，所述处理模块用于从获取的海量日志数据中提取信息，进行监控，所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级，同时利用MySQL服务机制实现分布式锁，在任务调度过程中利用获取锁提高调度效率，降低设备传输存储的资源消耗。

本实施例中，优选的，所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块，所述确定模块用于对获取的海量日志数据进行确定，避免数据的损失。

本实施例中，优选的，所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式，所有的正则表达式转变成更短的正则表达式；使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。

本实施例中，优选的，所述S7中提取标签特征的方法包括将序列规则输出到JSON文件，JSON文件用于新的日志文件；如果当前的日志信息匹配JSON文件中的某一项，则日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。

实施例2

S1.建立规范化的海量日志数据；

S2.对海量日志数据进行处理；

S3.对处理后的海量日志数据进行划分；

S4.通过划分后的日志数据进行监控；

S5.根据日志数据构建标签特征；

S6.将标签特征中关键信息的字符串转换为正则表达式；

S7.提取标签特征。

实施例3

与实施例1的不同之处在于，所述S2中对海量日志数据进行处理的方法还包括以下步骤：

S201.对海量日志数据进行实时更新；

S202.获取待更新的海量日志数据，将所述海量日志数据以json格式发送到分布式消息处理系统；

S203.分布式计算系统的每个节点从分布式消息处理系统中获取所述海量日志数据；

S204.遍历获取所述海量日志数据的json格式的数据中的key值和value值；

S205.根据S204中获取的每一key值从所述对应关系表中查找相应的数据库以及数据表；

S206.链接到S205中查找到的数据库，在相应的数据表中以S204中获取的value值作为检索条件查找获取相应的数据；

S207.将查找到的数据内容以key-value为名称重新封装成json格式的数据，将封装后的数据与所述海量日志数据的原始数据组合；

S208.将组合后的数据存储到一网络日志信息检索系统中。

本发明的工作原理及优点：本发明的提取方法，能够通过海量日志数据进行实时监控，保证了数据信息的实时性和有效性，有利于数据信息的高效检索及查询，同时基于海量日志数据，建立了软件运行中正确的标签特征，便于维护人员的人工的检查和理解，减少人工特征定义的失误，降低频繁修改的人力和时间成本。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：包括以下步骤：

S1.建立规范化的海量日志数据；

S2.对海量日志数据进行处理；

S3.对处理后的海量日志数据进行划分；

S4.通过划分后的日志数据进行监控；

S5.根据日志数据构建标签特征；

S6.将标签特征中关键信息的字符串转换为正则表达式；

S7.提取标签特征。

2.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S1中建立规范化的海量日志数据包括对于不符合格式要求的日志数据使用正则表达式进行处理和建立日志数据监控服务。

3.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S1中建立规范化的海量日志数据还包括对利用Hadoop对日志数据进行数据清洗，筛选出原始数据和对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

4.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S2中对海量日志数据进行处理的方法包括以下步骤：

5.根据权利要求4所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S2中对海量日志数据进行处理的方法还包括：根据所述结构化日志数据中的时间戳信息，对所述M个结构化日志数据进行聚合运算，确定所述结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。

6.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S4中通过划分后的日志数据进行监控的方法包括建立采集模块、处理模块和数据监管模块，所述采集模块用于对海量日志数据进行获取，所述处理模块用于从获取的海量日志数据中提取信息，进行监控，所述数据监管模块用于启动分发任务流程、设置单独的线程进行异常问题检查、在发现设备异常时将相应任务调度至其他同级，同时利用MySQL服务机制实现分布式锁，在任务调度过程中利用获取锁提高调度效率，降低设备传输存储的资源消耗。

7.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S4中通过划分后的日志数据进行监控的方法还包括建立确定模块，所述确定模块用于对获取的海量日志数据进行确定，避免数据的损失。

8.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S6中将标签特征中关键信息的字符串转换为正则表达式的具体包括将所有的字符串中的字符转换成正则表达式，所有的正则表达式转变成更短的正则表达式；使用贪心算法将程序同一个状态的状态信息的正则表达式提取出最短的正则表达式。

9.根据权利要求1所述的基于海量日志数据实时监控的分散标签特征提取方法，其特征在于：所述S7中提取标签特征的方法包括将序列规则输出到JSON文件，JSON文件用于新的日志文件；如果当前的日志信息匹配JSON文件中的某一项，则日志对应的软件处于正常运行状态，否则认为软件出现故障或存在潜在风险。