CN111339052A

CN111339052A - 一种非结构化日志数据处理方法及装置

Info

Publication number: CN111339052A
Application number: CN202010128367.7A
Authority: CN
Inventors: 沈天益; 胡文斌; 刘震; 洪华; 董龙; 鲁逸丁; 黄冬
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26

Abstract

本发明涉及数据处理领域，尤其涉及一种非结构化日志数据处理方法及装置，非结构化日志数据处理装置从至少一个设备获取设定时间段内的日志文件，其中，日志文件包括非结构化日志数据，该装置对非结构化日志数据进行识别，确定与非结构化日志数据对应的特征值。然后从非结构化日志数据中确定出有效的非结构化日志数据，再根据特征值对有效的非结构化日志数据进行聚类，确定M个结构化日志数据，所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，其中，M为正整数。本发明通过上述数据的处理方法，实现海量日志数据的实时有效分析和监控。

Description

一种非结构化日志数据处理方法及装置

技术领域

本发明实施例涉及数据处理领域，尤其涉及一种非结构化日志数据处理方法及装置。

背景技术

现如今，无现金交易越来越普遍，在无现金交易过程中会产生海量日志，其中包括一些具有分析价值的日志数据，现有技术中主要存在以下两种分析海量日志的方法：一种是根据关键字探测日志信息，实现监控；另一种是将海量日志以离线方式存储，再借助数据分析工具批量分析处理。但是这两种方法都无法实时地分析和监控海量日志数据。

因此亟需一种非结构化日志数据处理方法，可以有效地将非结构化日志数据转换成结构化日志数据，实现对日志数据的实时监控和有效的分析。

发明内容

本发明实施例提供一种非结构化日志数据处理方法，用以将非结构化日志数据转换成结构化日志数据，从而利用转换后的结构化日志数据进行实时分析和实时监控。

第一方面，本发明实施例提供一种非结构化日志数据处理方法，该方法可以由非结构化日志数据处理装置执行，该装置可以集成在客户端设备中，该方法包括：

非结构化日志数据处理装置从至少一个设备获取设定时间段内的日志文件，日志文件包括非结构化日志数据，然后对非结构化日志数据进行识别，确定与非结构化日志数据对应的特征值。进一步地，从非结构化日志数据中确定出有效的非结构化日志数据，根据特征值，对有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，其中M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，且M为正整数。

在一种可能的实施例中，客户端上的非结构化日志数据处理装置获取设备设定时间段内的日志文件，进一步地，对其中非结构化日志数据进行识别，其中根据正则表达式筛选出非结构化日志数据。再进一步地，非结构化日志数据处理装置对筛选出来的非结构化日志数据根据数据中的特征值进行聚类，转换成M个结构化日志数据，M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，其中，M为正整数。客户端上的非结构化日志数据处理装置通过上述方法步骤对获取的日志数据进行筛选识别、聚类处理和聚合处理，成功从日志数据中的非结构化日志数据中确定出有效的结构化日志数据，最终得到时序化指标，减少了日志数据的分析量，提高对日志数据的处理效率，且处理得到的各个时序化指标更加直观，更具有分析价值。

在一种可能的设计中，非结构化日志数据处理装置根据结构化日志数据中的时间戳信息，对M个结构化日志数据进行聚合运算，确定结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。

在一种可能的实施例中，根据非结构化日志数据中的时间戳信息对数据进行聚合处理，确定出对应的时序化指标，比如对日志记录中的各个状态码进行聚合运算，确定出对应的时序化指标：状态码比例。本方案通过上述聚合运算，实现对非结构日志数据的转换，使数据格式统一，可以用于机器学习分析，实现数据的智能化；指标化数据内的同一类数据还可以进行关联分析，实现多维分析统计。

在一种可能的实施例中，通过对结构化日志数据进行聚类运算，达到减少数据处理量的目的，使本技术方案更加可行，处理效率更快。

在一种可能的设计中，非结构化日志数据处理装置通过正则表达式，从海量的非结构化日志数据中确定出有效的非结构化日志数据，并将所述非结构化日志数据中除了有效的非结构化日志数据之外的数据剔除。

在一种可能的设计中，结构化日志数据中的每条数据对应有时间戳信息和唯一标识，其中时序化指标包括日志量、状态码比例、平均耗时中的至少一个。

在一种可能的设计中，非结构化日志数据处理装置根据结构化日志数据的时序化指标，预测未来设定时间段的时序化指标。

第二方面，本发明实施例提供一种非结构化日志数据处理装置，包括：

获取单元，用于从至少一个设备获取设定时间段内的日志文件，日志文件包括非结构化日志数据；

处理单元，用于对非结构化日志数据进行识别，确定与非结构化日志数据对应的特征值；

处理单元，还用于从非结构化日志数据中确定出有效的非结构化日志数据；

处理单元，还用于根据特征值，对有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值；

处理单元，还用于根据结构化日志数据的时间戳信息，对M个M个结构化日志数据聚合运算，确定结构化数据的时序化指标，其中时序化指标用于反映结构化数据在单位时间内的特征。

在一种可能的设计中，处理单元具体用于：通过正则表达式，从非结构化日志数据中确定出有效的非结构化日志数据，并将非结构化日志数据中除了有效的非结构化日志数据之外的数据剔除。

在一种可能的设计中，结构化日志数据中的每条数据对应有时间戳信息和唯一标识，时序化指标包括日志量、状态码比例、平均耗时中的至少一个。

在一种可能的设计中，处理单元还用于，根据结构化日志数据的时序化指标，预测未来设定时间段的时序化指标。

第三方面，本发明实施例提供一种计算设备，包括存储器，用于存储程序指令；处理器，用于调用存储器中存储的程序指令，按照获得的程序执行上述第一方面任意一项的方法。

第四方面，本发明实施例提供一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行计算机可读指令时，使得计算机执行上述第一方面任意一项的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种非结构日志数据处理系统架构示意图；

图2为本发明实施例提供的一种非结构日志数据处理方法的流程示意图；

图3为本发明实施例提供的一种时序化指标监控报表示意图；

图4为本发明实施例提供的一种非结构化日志数据处理装置的架构示意图；

图5为本发明实施例提供的一种非结构化日志数据处理装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了更好地解释本发明实施例，先对本发明实施例所适用的日志数据处理场景具体说明如下：

在生产环境中，日志数据在日常运维、故障诊断、业务查询等领域发挥着巨大价值。随着无现金交易大规模增长，各种日志数的量也快速增长。当今日志数据的存储量已从以往的吉字节(gigabyte，GB)级快速增长到太字节(terabyte，TB)，甚至是PB(terabyte)级别，日志数据的每秒钟处理完的事务次数(transactions per second，TPS)达到几十万甚至上百万每秒。在传统的日志数据处理中，存在对大规模日志数据处理能力不足、处理时延较大、消耗资源过多等问题。为了有效对海量日志数据进行处理，本申请实施例提供了一种将海量非结构日志数据进行时序化、指标化的处理方法，更有效地处理和利用日志数据。

基于上述描述，本发明实施例提供一种非结构日志数据处理系统结构示意图，如图1所示，其中包括客户端设备10、至少一个服务器20和位于在客户端设备10上的非结构日志数处理装置101。

其中，服务器20可以是应用服务器，应用服务器保存有应用的日志数据，该日志数据通常是非结构化的日志数据，所谓非结构化的日志数据通常缺乏严格的数据结构，数据模型没有严格定义。

客户端设备10中的非结构日志数处理装置101，用于实现从至少一个服务器20获取非结构化日志数据，并将非结构化日志数据转换成结构化日志数据。

需要说明的是，上述图1所示的系统结构仅是一种示例，本发明实施例对客户端设备10、服务器20的数量和连接方式并不作限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种非结构日志数据处理方法的流程示意图，包括：

步骤201，客户端设备10上的非结构化日志数据处理装置101从服务器20上获取设定时间段内的日志文件，日志文件包括非结构化日志数据。

示例性地，非结构化日志数据处理装置101获取云闪付对应的应用服务器的日志文件，该日志文件为2019年12月至2020年2月这段时间内的日志文件。其中，日志文件中日志数据是非结构化的，格式未经过统一处理的，但其中具备特征值，可以通过后续各个步骤的数据转换处理操作，得到结构化日志数据。

示例性地，日志文件中的非结构化日志数据缺乏统一数据结构，且其数据模型没有严格定义。进一步地，非结构化日志数据可以为文本、报文等，格式可以为XML或JSON。

示例性地，日志文件中的非结构化日志数据如表1所示的。

表1

步骤202，非结构化日志数据处理装置101对非结构化日志数据进行识别，确定与非结构化日志数据对应的特征值。

具体来说，该装置101可以根据正则表达式，对日志文件进行识别，确定与非结构化日志数据对应的特征值，其中特征值可以指数据结构属性，例如人名、年龄、手机号等。需要说明的是，正则表达式可以根据实际需要进行增加或者修改，并不是固定不变的。

步骤203，非结构化日志数据处理装置101从非结构化日志数据中确定出有效的非结构化日志数据。

在一种可能的实施例中，该装置101可以通过正则表达式，从非结构化日志数据中确定出有效的非结构化日志数据，并将非结构化日志数据中除了有效的非结构化日志数据之外的数据剔除。示例性地，该装置101从表1中确定出与特征值“status Code”、特征值“duration”相关的有效的非结构化日志数据，同时剔除特征值“age”相关的非结构化日志数据以及其他无效的非结构化日志数据。

可见，该步骤有助于过滤无效数据，将非结构日志数据数据量大大降低，以减少对系统资源的消耗。

步骤204，非结构化日志数据处理装置101根据特征值，对有效的非结构化日志数据进行聚类，转换成M个结构化日志数据。其中，M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，其中，M为正整数。

进一步地，在一种可能的设计中，结构化日志数据中的每条数据对应有时间戳信息和唯一标识，时序化指标包括日志量、状态码比例、平均耗时中的至少一个。

示例性地，结合表1所示，该装置101将有效非结构数据中的特征值“statusCode”、特征值“duration”分别对应的数据进行聚类处理，生成结构化日志数据，如表2所示，该结构化日志数据中不同条的数据包括状态码“status Code”对应的日志数据，以及耗时“duration”对应的日志数据，和时间戳信息。例如第一条结构化数据(ID为1)包括000、5和2019-12-15T07:00:00，第二条结构化数据(ID为2)包括001、18和2019-12-15T07:01:20，可见，第一条结构化数据和第二条结构化数据都具有相同的特征值(状态码、耗时和时间戳信息)。

表2

其中，表2中，0000表示成功；0001表示失败；0002表示被拒绝；0003表示超时。

本申请实施例中，按照上述方法可以实现将非结构化日志数据转换成结构化日志数据，非结构化的日志数据经过结构化处理后，格式统一，可以供后端处理装置作进一步处理，避免后端处理装置处理复杂化数据带来的额外开发。从而实现日志数据的标准化；另外，将海量日志数据转换为结构化日志数据后，至少可以下降一个数量级，从而实现日志数据的轻量化。

基于上述方法实施例，在一种可能的实施例中，当非结构化日志数据被转换成结构化日志数据之后，该非结构化日志数据处理装置101根据有效的非结构化日志数据的时间戳信息，对M个结构化日志数据进行聚合运算，确定结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。其中，该时序化指标可以是单位时间内的数据量、平均耗时、状态码比例等。示例性地，结构化日志数据的时序化指标可以如表3所示。

表3

从表3所示可见，在应用层qr_payment上的2019年12月15日00:00:00至00:08:00这个时段内的所有非结构化日志数据对应得到的结构化日志数据的时序化指标中：日志量为73256条；成功率，也就是状态码“0000”/日志量的比值为0.98；平均耗时，指的是非结构数据中的耗时平均值为11毫秒。

通过上述步骤205中的方法对日志数据进行聚合处理，非结构化日志数据处理装置101处理的数据量可以由处理前的TB级别以上，下降至MB级别，大大节约了系统资源，有利于进行高效实时的非机构化日志数据处理；查询和监控的时效性从分钟级以上降至秒级，时延大幅减少；处理得到的结构化日志数据具有时间维度概念，从而可以实现对日志数据的任一时间点分析；结构化日志数据的时序化指标的相关的数据可以进行关联分析，从而实现对日志数据的多维分析；还可以对轻量级的时序化指标进行机器学习分析，实现数据智能化。

在一种可能的实施例中，非结构化日志数据处理装置10根据结构化日志数据的时序化指标，预测未来设定时间段的时序化指标。

在一种可能的实施例中，结构化日志数据的时序化指标具有多维度的特征值，可选地，可以以key/value的形式进行存储，其中时序化指标中有对应的分钟级的时间戳信息和唯一标识。比如，图3所示的时序化指标监控报表示意图中，是以各个时序化指标为基础进行的图形化转换，生成了分钟级的日志量、成功率、耗时等时序化指标的可视化报表，实现了对应用服务的多维度监控。可选地，在时间维度上，可以监控应用服务任一时间点的健康状况，使得应用服务的监控更加直观化。可选地，预测算法可以离线运行在时序化指标数据上，对分钟级的历史时序化指标的数据进行计算，以此为基础得到各维度的时序化指标数据的预测值，使得对应用服务的监控更加具有前瞻性。

基于同一发明构思，本发明实施例还提供的一种非结构化日志数据处理装置101的架构示意图，如图4所示，非结构化日志数据处理装置101中至少包括数据识别、清洗，聚类、聚合等功能。

在一种可能的实施例中，非结构化日志数据处理装置101可以采用分布式架构部署，实时获取服务器20上的非结构化日志数据。示例性地，qr_payment应用层的日志文件的非结构化日志数据传送到非结构化日志数据处理装置101的指定消息队列，然后对其进行数据识别、清洗、聚类、聚合等处理，最终生成结构化日志数据的时序化指标数据，其中时序化指标数据以时序化方式落地，不同条的数据内可以包括格式统一的日志量、状态码比例、平均耗时中的至少一个。可选地，用户可以根据日志文件中非结构化日志数据的实际信息，自定义生成结构化日志数据的时序化指标。

在一种可能的实施例中，非结构化日志数据的处理可以由以下3个阶段完成：

1.数据识别、清洗：非结构化日志数据处理装置101识别出海量非结构化日志数据中关键性的常态信息，也就是有效的非结构化日志数据。进一步地提取出有效的非结构化日志数据，剔除其余无效数据，其中保留时间戳信息，以便数据最后做时序化落地处理。示例性地，通过数据解析工具和/或正则表达式，识别出海量日志文件中的有效非结构化日志数据。可选地，用户可根据实际情况增加或者修改正则式，识别出想要的非结构化日志数据。

2.聚类：经过识别和清洗处理后，还需经过数据聚类处理确定出M个日志记录。以状态码和耗时为例，此两类数据结构性质不同，经过聚类后，将两类数据打上不同的分类标签，分别生成状态码的日志录和耗时的日志记录。其中，状态码的日志记录包括至少一个状态码信息；耗时的日志记录包括至少一个耗时信息。

3.聚合：非结构化日志数据处理装置101对M个日志记录进行聚合处理生成结构化日志数据的时序化指标。示例性地，对M个日志记录进行周期性聚合运算。示例性地，日志量的周期性累加值作为日志量时序化指标；状态码按照不同值进行累加运算，和日志量进行比较，得到不同状态码的分钟级占比的时序化指标；耗时的周期平均值作为耗时的时序化指标。经过聚合运算后，海量的日志数据生成各个周期性的时序化指标，可选地，再次发送至消息队列内。

基于同一发明构思，图5示例性的给出了本发明实施例提供的一种非结构化日志数据处理装置结构示意图，该装置可以执行上述图2中非结构化日志数据处理方法的流程，具体如下：

获取单元501，用于从至少一个设备获取设定时间段内的日志文件，日志文件包括非结构化日志数据。

处理单元502，用于对非结构化日志数据进行识别，确定与非结构化日志数据对应的特征值。

处理单元502，还用于从非结构化日志数据中确定出有效的非结构化日志数据。

处理单元502，还用于根据特征值，对有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值。

处理单元502，还用于根据结构化日志数据的时间戳信息，对M个结构化日志数据进行聚合运算，确定结构化数据的时序化指标，时序化指标用于反映结构化数据在单位时间内的特征。

在一种可能的设计中，处理单元502具体用于：通过正则表达式，从非结构化日志数据中确定出有效的非结构化日志数据，并将非结构化日志数据中除了有效的非结构化日志数据之外的数据剔除。

在一种可能的设计中，处理单元502还用于，根据结构化日志数据的时序化指标，预测未来设定时间段的时序化指标。

基于同一发明构思，本发明实施例还提供了一种计算设备，包括：

存储器，用于存储程序指令。

处理器，用于调用存储器中存储的程序指令，按照获得的程序执行上述非结构化日志数据处理的方法。

基于同一发明构思，本发明实施例还提供了一种计算机可读非易失性存储介质，包括计算机可读指令，当计算机读取并执行计算机可读指令时，使得计算机执行上述非结构化日志数据处理的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种非结构化日志数据处理方法，其特征在于，包括：

从至少一个设备获取设定时间段内的日志文件，所述日志文件包括非结构化日志数据；

对所述非结构化日志数据进行识别，确定与所述非结构化日志数据对应的特征值；

从所述非结构化日志数据中确定出有效的非结构化日志数据；

根据所述特征值，对所述有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值，其中，M为正整数。

2.根据权利要求1所述的方法，其特征在于，还包括：

根据所述结构化日志数据中的时间戳信息，对所述M个结构化日志数据进行聚合运算，确定所述结构化数据的时序化指标，所述时序化指标用于反映所述结构化数据在单位时间内的特征。

3.根据权利要求1或2所述的方法，其特征在于，从所述非结构化日志数据中确定出有效的非结构化日志数据，包括：

通过正则表达式，从所述非结构化日志数据中确定出有效的非结构化日志数据，并将所述非结构化日志数据中除了所述有效的非结构化日志数据之外的数据剔除。

4.根据权利要求1所述的方法，其特征在于，所述结构化日志数据中的每条数据对应有时间戳信息和唯一标识，所述时序化指标包括日志量、状态码比例、平均耗时中的至少一个。

5.根据权利要求1或2所述的方法，其特征在于，还包括：

根据所述结构化日志数据的时序化指标，预测未来设定时间段的时序化指标。

6.一种非结构化日志数据处理装置，其特征在于，所述非结构化日志数据处理装置包括：

获取单元，用于从至少一个设备获取设定时间段内的日志文件，所述日志文件包括非结构化日志数据；

处理单元，用于对所述非结构化日志数据进行识别，确定与所述非结构化日志数据对应的特征值；

所述处理单元，还用于从所述非结构化日志数据中确定出有效的非结构化日志数据；

所述处理单元，还用于根据所述特征值，对所述有效的非结构化日志数据进行聚类，转换成M个结构化日志数据，所述M个结构化日志数据中不同条的结构化日志数据具有相同的N个特征值。

7.根据权利要求6所述的装置，其特征在于，所述处理单元还用于：

8.根据权利要求6或7所述的装置，其特征在于，所述处理单元具体用于：

9.根据权利要求6所述的装置，其特征在于，所述结构化日志数据中的每条数据对应有时间戳信息和唯一标识，所述时序化指标包括日志量、状态码比例、平均耗时中的至少一个。

10.根据权利要求6或7所述的装置，其特征在于，所述处理单元还用于：

11.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至5任一项所述的方法。

12.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至5任一项所述的方法。