CN114168672B

CN114168672B - 日志数据的处理方法、装置、系统以及介质

Info

Publication number: CN114168672B
Application number: CN202111537067.5A
Authority: CN
Inventors: 周凯; 李巍; 张荣兵; 李康; 王健; 石林; 周政卓; 陶华君
Original assignee: Data Enlighten Beijing Co ltd
Current assignee: Data Enlighten Beijing Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-09-23
Anticipated expiration: 2041-12-13
Also published as: CN114168672A

Abstract

本发明提供了一种日志数据的处理方法、装置、系统以及介质。所述方法包括：获取步骤，获取车辆保险的日志数据；预处理步骤，基于服务类型，利用Flink引擎对获取的日志数据进行预处理，以生成具有预定格式的半结构化日志数据；结构化处理步骤，根据日志数据的类型，对半结构化日志数据进行结构化处理，以将半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及加载步骤，将结构化日志数据加载到数据库中。本发明的上述方法能够针对车辆保险的日志数据能够进行有效地解析及存储，从而能够支持多维度且深层次的报表生成、数据分析等数据统计业务。

Description

日志数据的处理方法、装置、系统以及介质

技术领域

本发明涉及车辆领域，并且涉及一种日志数据的处理方法、装置、系统以及介质。

背景技术

近年来在市场上具有多种报表工具，但是大多数报表工具仅专注于数据处理及数据展现。在不同行业的专业领域中，特别是汽车保险领域，需要具有相对专业的、有针对性的报表体系。

目前，用于汽车保险领域的估损、核损、核赔等系统支持进行数据导出和数据分析，但是导出的数据及分析结果都较单一。而且，通常是直接通过用户录入的指标获取相关数据，并根据录入指标及相关数据生成报表，但是无法进行多维度或深层次的指标分析，从而具有实用性低下、指标针对性不强以及使用率不高等缺陷。还存在采用较传统的拖拽指标的方法生成报表的方法，或使用简单的查询模块生成目标报表等方法，但是这些传统方法存在运行速度较慢、数据加载刷新不稳定，效率低等问题。此外，对于汽车保险数据，通常具有大量且复杂的历史数据、现行数据等，目前的数据处理系统无法对这种大量且复杂的数据进行有效的解析处理，以用于服务所需的报表生成、数据分析等数据统计业务。

发明内容

针对以上问题，本发明提供一种日志数据的处理方法、装置、系统以及介质，其针对车辆保险的日志数据能够进行有效地解析并存储，从而能够支持多维度且深层次的报表生成、数据分析等数据统计业务。

根据本发明的一方面，提供一种日志数据的处理方法，包括：获取步骤，获取车辆保险的日志数据；预处理步骤，基于服务类型，利用Flink引擎对获取的所述日志数据进行预处理，以生成具有预定格式的半结构化日志数据；结构化处理步骤，根据所述日志数据的类型，对所述半结构化日志数据进行结构化处理，以将所述半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及加载步骤，将所述结构化日志数据加载到数据库中。

优选地，所述预处理步骤具体包括：对所述日志数据进行筛选，以筛选出与所述服务类型相关的日志数据；以及从筛选的所述日志数据中，获取用户的请求及响应信息，以生成所述半结构化日志数据。

优选地，对所述请求及响应信息中的预定的字段进行结构化，以对所述日志数据的属性进行标识。

优选地，所述预定格式的半结构化日志数据包括json数据格式的半结构化日志数据。

优选地，所述日志数据的处理方法还包括：存储步骤，在所述预处理步骤之后，将所述半结构化日志数据存入到Kafka的消息队列中，并且在所述结构化处理步骤中，对来自所述Kafka的消息队列中的所述半结构化日志数据进行结构化处理。

优选地，所述结构化处理步骤具体包括：针对所述日志数据的类型，对所述日志数据进行轻度解析，以提取特定类型的数据内容；以及将轻度解析后的所述数据内容进行清洗和整合，从而转换为具有二维表结构形式的所述结构化日志数据。

优选地，所述加载步骤具体包括：将所述结构化日志数据转换为与服务类型相关的数据模型；以及将所述数据模型存储到所述数据库中。

优选地，在所述结构化处理步骤和所述加载步骤进行的过程中，对所述日志数据进行监控，以对格式错误的日志数据进行告警。

优选地，所述日志数据的处理方法还包括：分发步骤，在所述预处理步骤之后，将生成的所述半结构化日志数据向多个目标系统进行分发，其中，将与所需的日志类型相关的所述半结构化日志数据向作为多个目标系统中的一个目标系统的数据仓库系统进行发送，以进行所述结构化处理。

优选地，所述日志数据的处理方法还包括：接收步骤，在所述分发步骤之后，实时或按预定的时间接收所述半结构化日志数据，以进行所述结构化处理。

优选地，所述获取步骤具体包括：将服务器上的原始日志数据直接输出到本地文件系统以获取日志数据，或者通过NFS对服务器上的原始日志数据进行获取。

优选地，所述数据库包括ClickHouse数据库。

根据本发明的另一方面，提供一种日志数据的处理装置，包括：获取单元，该获取单元获取车辆保险的日志数据；预处理单元，该预处理单元基于服务类型，利用Flink引擎对获取的所述日志数据进行预处理，以生成具有预定格式的半结构化日志数据；结构化处理单元，该结构化处理单元根据所述日志数据的类型，对所述半结构化日志数据进行结构化处理，以将所述半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及加载单元，该加载单元将所述结构化日志数据加载到数据库中。

根据本发明的另一方面，提供一种日志数据的处理系统，包括：处理器；和存储装置，用于存储程序，所述处理器执行所述程序，以实现如以上方面所述的日志数据的处理方法。

根据本发明的另一方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行，以实现如以上方面所述的日志数据的处理方法。

发明的有益效果

根据本发明的日志数据的处理方法、装置、系统以及介质，针对车辆保险的日志数据能够进行有效地解析并存储，从而能够支持多维度且深层次的报表生成、数据分析、终端用户查询等数据统计业务。此外，通过在结构化处理之前进行作为预处理的半结构化处理，能够分担针对大量数据的处理负荷，并能够有效地解析出服务所需的数据；数据的结构化处理与支撑应用的数据库分离，从而减轻了这两个部分的资源竞争，进而减轻服务器的压力。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，但其说明仅用于解释本发明，并不构成对本发明的不当限定。

图1是本申请实施例提供的一种日志数据的处理方法的流程示意图；

图2是本申请实施例的预处理步骤S2的具体流程示意图；

图3是本申请实施例提供的一种日志数据的处理方法的流程示意图；

图4是本申请实施例的结构化处理步骤S3的具体流程示意图；

图5是本申请实施例提供的一种日志数据的处理方法的流程示意图；

图6是本申请实施例提供的一种日志数据的处理方法的流程示意图；

图7是根据本发明实施例的日志数据的处理装置的主要单元示意图。

图8是根据本发明的具体实例的日志数据处理的构架框图。

图9示出了日志接入的具体流程。

图10示出了日志采集的具体处理流程。

图11示出了日志分发的具体流程。

图12示出了数据仓库的构架框图。

图13示出了在经过日志采集的预处理后的半结构化日志数据的实例。

图14示出了在经过结构化处理的解析后生成的二维表结构的日志数据的实例。

图15示出了整个日志处理过程的简化流程图。

图16A和16B示出了指标的实例。

图17A和17B示出了利用本发明的实施例的日志数据的处理方法和装置所生成的报表的实例。

图18是本申请实施例提供的一种电子设备的结构示意图；以及

图19是本申请实施例提供的一种用于日志数据的处理方法的程序产品的结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

结合图1说明本发明的日志数据的处理方法。图1示出根据本发明的一优选的实施例的日志数据的处理方法。

如图1所示，本发明的一优选实施例的日志数据的处理方法包括：获取步骤S1，获取车辆保险的日志数据(例如，车辆保险的定损、核损等过程中的日志数据)；预处理步骤S2，基于服务类型(例如，定损、核损等服务)，利用Flink引擎对获取的日志数据进行预处理，以生成具有预定格式的半结构化日志数据；结构化处理步骤S3，根据日志数据的类型，对半结构化日志数据进行结构化处理，以将半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及加载步骤S4，将结构化日志数据加载到数据库中。

由此，针对车辆保险的日志数据能够进行有效地解析并存储，从而能够支持多维度且深层次的报表生成、数据分析、终端用户查询等数据统计业务。此外，通过在结构化处理之前进行作为预处理的半结构化处理，能够分担针对大量数据的处理负荷，并能够有效地解析出服务所需的数据；数据的结构化处理与支撑应用的数据库分离，从而减轻了这两个部分的资源竞争，进而减轻服务器的压力。

在本发明的实施例中，数据库例如为ClickHouse数据库。ClickHouse数据库与同类数据库在同类应用场景下相比具有查询效率高的优势。

获取步骤S1具体包括：将服务器上的原始日志数据直接输出到本地文件系统以获取日志数据，或者通过NFS对服务器上的原始日志数据进行获取。由此，通过输出到本地文件或通过NFS这两种方式，能够对日志数据进行实时地获取。

如图2所示，预处理步骤S2具体包括：步骤S21，对日志数据进行筛选，以筛选出与服务类型相关的日志数据；以及步骤S22，从筛选的日志数据中，获取用户的请求及响应信息，以生成半结构化日志数据。由此，通过对日志数据进行筛选并获取用户的请求及响应信息，能够有助于后续的日志结构化处理高效地进行。

进一步地，对请求及响应信息中的预定的字段进行结构化，以对日志数据的属性进行标识。由此，通过对日志数据的属性进行标识，能够便于后续的例如报表的统计工作的使用。

所述预定格式的半结构化日志数据包括json数据格式的半结构化日志数据。

如图3所示，本实施例的日志数据的处理方法还可以包括：存储步骤S5，将半结构化日志数据存入到Kafka的消息队列中。在结构化处理步骤S3中，对来自Kafka的消息队列中的半结构化日志数据进行结构化处理。由此，通过对日志数据进行存储，能够有效地对日志数据进行后续处理。此外，Kafka具有优秀的吞吐量以及可控的数据存储周期，因此，通过Kafka，能够高效地进行数据流转，从而有助于对批量的日志数据进行例如多维度的处理、分析、统计等操作。

如图4所示，结构化处理步骤S3具体包括：步骤S31，针对日志数据的类型，对日志数据进行轻度解析，以提取特定类型的数据内容；以及步骤S32，将轻度解析后的数据内容进行清洗和整合，从而转换为具有二维表结构形式的结构化日志数据。由此，能够更有效地进行日志数据的结构化处理，即，有效地将日志数据转换为适于数据统计分析的结构；此外，通过轻度解析过程，能够有效地分担日志结构化过程的处理负荷。

此外，加载步骤S4具体包括：将结构化日志数据转换为与服务类型相关的数据模型；以及将数据模型存储到数据库中。由此，利用数据模型，能够更有效地将结构化日志数据加载到数据库中，并且以数据模型的方式存储能够便于用户的统计应用。

此外，在结构化处理步骤S3和加载步骤S4的过程中，对日志数据进行监控，以对格式错误的日志数据进行告警。因此，能够对格式错误的日志数据进行预警，以便对错误数据进行快速的响应和处理。

如图5所示，本实施例的日志数据的处理方法还包括：分发步骤S6，将生成的半结构化日志数据向多个目标系统(例如，告警系统、报表系统、可视化日志系统、数据仓库系统等)进行分发，其中，将与所需的日志类型相关的半结构化日志数据向作为多个目标系统中的一个目标系统的数据仓库系统进行发送，以进行后续的结构化处理。由此，能够将半结构化日志数据分发到多个目标系统，并且将与所需的日志类型相关的半结构化日志数据分发到数据仓库系统使得对预处理步骤S2后生成的半结构化日志数据进一步地过滤，从而能够进行更精细化的数据处理。

如图6所示，在分发步骤S6之后，还包括：接收步骤S7，实时或按预定的时间接收所述半结构化日志数据，以进行所述结构化处理。从而，通过实施接收，能够进行快速数据处理，而按预定时间接收能够进行批量的处理，以节省资源。

图7是根据本发明一优选实施例的日志数据的处理装置的主要单元示意图。

如图7所示，日志数据的处理装置100，包括：获取单元101，该获取单元获取车辆保险的日志数据；预处理单元102，该预处理单元基于服务类型，利用Flink引擎对获取的日志数据进行预处理，以生成具有预定格式的半结构化日志数据；结构化处理单元103，该结构化处理单元根据日志数据的类型，对半结构化日志数据进行结构化处理，以将半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及加载单元104，该加载单元将结构化日志数据加载到数据库中。在本发明的实施例中，数据库例如包括ClickHouse数据库。

具体地，获取单元101将服务器上的原始日志数据直接输出到本地文件系统以获取日志数据，或者通过NFS对服务器上的原始日志数据进行获取。

具体地，预处理单元102对日志数据进行筛选，以筛选出与服务类型相关的日志数据，并且从筛选的日志数据中，获取用户的请求及响应信息，以生成半结构化日志数据。进一步地，对请求及响应信息中的预定的字段进行结构化，以对日志数据的属性进行标识。所述预定格式的半结构化日志数据包括json数据格式的半结构化日志数据。

本实施例的日志数据的处理装置100还可以包括：存储单元，其将半结构化日志数据存入到Kafka的消息队列中。结构化处理单元103对来自Kafka的消息队列中的半结构化日志数据进行结构化处理。

结构化处理单元103针对日志数据的类型，对日志数据进行轻度解析，以提取特定类型的数据内容，并且将轻度解析后的数据内容进行清洗和整合，从而转换为具有二维表结构形式的结构化日志数据。

加载单元104将结构化日志数据转换为与服务类型相关的数据模型，并且将数据模型存储到数据库中。

此外，本实施例的日志数据的处理装置100还具有监控单元，其对日志数据进行监控，以对格式错误的日志数据进行告警。

本实施例的日志数据的处理装置100还包括：分发单元，其将生成的半结构化日志数据向多个目标系统进行分发，其中，将与所需的日志类型相关的半结构化日志数据向作为多个目标系统中的一个目标系统的数据仓库系统进行发送，以进行后续的结构化处理。

本实施例的日志数据的处理装置100还包括：接收单元，其实时或按预定的时间接收所述半结构化日志数据，以进行所述结构化处理。

以下将参考图8-15描述本发明的日志数据的处理方法和日志数据的处理装置的更具体实例。

在本实例中，日志数据的处理方法包括日志接入、日志采集、日志分发以及数据仓库中的处理。图8示出了本实例的日志数据处理的具体构架图。

<日志接入>

在日志接入步骤中，日志文件通过NFS(网络文件系统)集中挂载：所有服务器上的日志文件通过NFS Export(网络文件系统输出)暴露出来，Flink(分布式大数据处理引擎)节点通过NFS Mount(挂载命令)将日志文件集中挂载到本地。图9示出了日志接入的流程示意图。

[日志接入方式]

日志接入支持三种文件系统：本地文件、NFS和OSS(开放源码软件)。

业务系统日志直接输出到本地文件，数据接入模块可直接对该本地文件，而NFS同样部署在内网，数据传输速度快。因此，本地文件和NFS这两种方式都具有实时数据传输的特点。

日志文件的格式为文本文件。

·本地文件系统：本地文件保证在Flink各个工作者(worker)节点存在且路径一直，应用场景有限。

·NFS文件系统：日志接入端通过NFS服务Export暴露日志文件，各Flink Worker(即TaskManager，一种任务管理器)节点通过NFS Mount挂载文件到服务器上。FlinkSource(Flink来源)以类似于本地文件的方式消费日志文件。

·OSS文件系统：用户通过中台接口或OSS客户端将文件上传到OSS系统上，文件上传完成后必须通过中台回调接口发送文件创建消息。

[本地文件/NFS文件接入要求]

由于采集层使用Tailer(读取数据的一种方式)采集日志文件，采集程序会一直监控日志文件是否有新数据到达。为降低不必要的系统开销，日志文件必须在可预见的时间点结束。因此日志文件必须按时间切分，如每个小时一个文件。

日志文件命名规则：日志文件前缀-时间.后缀。

其中：

·日志文件前缀无要求，根据服务而定。

·时间：时间格式为yyyymmddHHmmss根据时间粒度确定，取开始时间。如小时粒度，为2018101910，代表日志文件是2018/10/19 10点-11点的日志。

·后缀：日志后缀无要求，日志格式必须是文本文件。

日志接入方必须在日志服务器上通过NFS服务发布日志文件。远程日志文件通过NFS方式挂载到Flink工作节点上。

NFS挂载要求：

·Flink Worker各节点挂载目录必须完全一致。

·Flink Worker节点上必须保证每个服务一个单独目录。

[OSS接入要求]

通过OSS上传下载文件可以有效缓解接口服务流量及处理开销。日志通过外网接入一般使用OSS方式。

通过OSS上传文件需要先获取OSS认证信息及中台回调接口。为减小日志采集扫描开销，OSS文件建议采用OSS回调将文件操作以消息通知的方式告知采集系统。

[获取OSS认证信息及回调信息]

OSS认证信息及回调信息的获取实例如下：

POST/oauth/oss/stsPutFileWithCallback

·请求参数(RequestBody)

οserviceType服务类型，固定为1c1p-log

οfilePath文件路径

οfileName文件名

οcontentMd5文件内容md5值

οcontentType上传文件contentType请求头

·请求头

οAuthorization：认证信息

οContent-Type：Application/json

·返回结果

状态码0000为成功，否则失败

成功响应时，ossHeaders中的字段为上传文件请求头

[文件上传接口]

文件上传接口的实例如下：

PUT http://{endpoint}/{filePath}/{fileName}

·url path参数说明

οendpoint为上个接口返回的endpoint字段

οfilePath为上个接口请求的filePath字段

οfileName为上个接口请求的fileName字段

·请求参数(RequestBody)

日志内容，csv/tcv格式

·请求头

获取oss认证信息及回调信息接口返回的ossHeaders中所有请求头，必须严格一致

·返回结果

状态码0000为成功，否则失败

<日志采集>

在日志采集步骤中，使用Flink对日志进行采集。使用Flink代替logstash(分布式日志收集框架)对日志文件进行采集，避免logstash单点故障、负载不均及维护复杂的问题。采集层对日志进行解析和简单清洗，并将结构化日志以Avro(数据序列化的系统)的形式存入kafka(分布式的基于发布/订阅模式的消息队列)中。

日志文件以消息驱动的形式通知Flink Source进行日志采集。日志采集模块使用Flink框架并行处理，采用Esper引擎执行解析、清洗操作。通过配置中心推送相关的例如业务报表EPL语句的编辑(类Sql语言)、文件、扫描等进行配置维护及动态发布，其中，配置中心用于配置文件内容、涉及特定业务规则的条件、阀值等。日志采集的处理流程如图10所示。

[日志读取]

Flink Source读取日志以文件事件驱动。NFS使用扫描程序定期扫描日志文件，如有新文件创建发送消息通知到消息队列(Kafka)中；OSS通过中台接口回调发送文件创建通知到消息队列(Kafka)。Flink Source订阅消息通知，当收到日志文件创建事件时启动日志采集，并监听文件变化，直到文件超时。

文件事件通知格式：

·事件时间：yyyy-mm-dd hh：mm：ss

·文件类型：NFS/OSS/本地文件等

·事件类型：文件创建、文件修改、文件删除

·文件路径：NFS为绝对路径，OSS为url形式

·文件大小：字节大小

为避免数据倾斜及方便水平扩展，日志文件尽量是小而分散的(按时间切分)。Flink Source读取日志文件时通过Zookeeper(分布式系统)瞬时节点注册心跳并通过数据节点维护文件消费相关信息(如offset,ownner等)，所有source对瞬时节点进行监听，以便于部分source消费异常后可以自动恢复而不丢失或重复消费日志。

[日志解析、清洗]

数据解析和清洗，因为大量的日志数据具有不规则性，因此，需要对日志数据进行解析和清洗这样的预处理，以筛选出网关日志，即，服务所需的日志数据(例如，符合报表部门需要的相关交易日志数据)。作为一实例，对于保险定损中涉及到的登陆鉴权、车型定损等，根据后续报表生成的需要，例如仅需要用户定损的车型，则对登录鉴权的日志进行过滤，从而筛选出在定损中车型的日志信息。此外，考虑到不同的报表需求可能来自于相同的日志数据，因此，可以进行更精细化的解析。在筛选出网关日志之后，再从网关日志中获取用户的请求及响应信息，用户的请求及响应信息会以json形式(即，半结构化数据存储格式)作为半结构化日志数据进行存储。

此外，还对用户的请求及响应信息中的关键字段进行结构化处理，目的是标识出这部份日志的归属(例如，产生日志的用户、接口、时间等)，从而便于后续报表使用。

Flink Source读取日志后，将每条日志记录以Esper事件的形式发送到Esper处理引擎中。Esper引擎是一个高度可定制的CEP处理引擎。通过使用EPL以类SQL的形式对日志记录进行流式解析。EPL通过Esper引擎进行注册。Esper会在接收到日志记录后将记录投递到满足规则的EPL进行处理，并对处理后的时间按照Esper回调选择相应的Flink Sink进行输出。

日志解析步骤将原始日志分服务类型进行解析，不同的服务类型解析的字段不同。并按相应的规则进行轻度清洗。解析和清洗规则通过EPL进行配置，结合配置中心进行规则动态发布，从而能够对规则进行实时更新。

[日志输出]

采集的日志通过Flink Sink以Avro格式写入Kafka存储。Kafka中每个服务的日志用单独的Topic进行存储。

[Avro Schema注册]

Kafka以Avro的形式存储日志。日志以Avro存储有以下优点：

·数据以二进制形式存储，序列化反序列化速度快，序列化后数据量小。

·数据是结构化的，Avro有对应的Schema(Flink三大逻辑结构之一)，以Json(一种数据格式)形式定义，消息自描述。

·支持在Schema改变后对原有Schema的兼容。

·支持动态消息。

Avro数据必须定义Schama。对于存储在Kafka上的数据，每一个Topic需要定义一个对应的Avro Schema。Avro Schema必须保持在日志采集层、日志处理层、日志分发层统一，一处改变其他层也必须同步更新。因此Avro Schema通过配置中心维护并同步到Zookeeper节点，日志采集层、日志处理层、日志分发层同时订阅监听Zookeeper节点以保持配置统一。

<日志分发>

使用flink对日志进行分发。分发层通过flink实现kafka到数据库/oss/elk(开放源码软件/阿里云日志服务)等系统的多路分发。采集层和分发层均配合配置中心实现采集分发的配置动态维护。

日志分发的具体流程如图11所示。

[分发流程]

日志通过采集，以结构化形式存入Kafka。通过Kafka+Flink实现日志的一次写入多路分发。

对于每一路日志分发，会单独起一个Flink作业(Source+Sink，一般无复杂处理逻辑)，此时多个系统的数据分发互不影响。由于日志分发流程简单，新增一路日志分发，只需要新增提交一个Flink作业即可，作业的提交和维护可通过基准工具实施。

[分发配置]

日志分发所需的配置为：

·日志源：kafka中对应的topic，一个或多个。

·处理逻辑：日志分发一般为简单清洗逻辑。

·目标系统类型：计划支持数据库(JDBC/BATCH)、ELK、OSS。对于目标系统的支持需要实现相应的Flink Sink

·输出字段：输出字段列表

配置确定后，可以直接通过基准工具构建Flink拓扑(Source+Sink)提交到Flink集群。

[Flink任务监控]

在日志采集、分析、分发环节，都使用Flink作业对数据进行读取、处理和传输。各个环节中对Flink吞吐量数据进行输出(Metrics形式)。

Flink作业在读取数据(Source)和发送数据(Sink)组件中，定时将读取的数据量和发送的数据量输出到ElasticSearch中。在ElasticSearch之上使用ElastAlert对吞吐量进行监控(同比环比、动态增降幅)，如发现处理异常及时以邮件或短信的形式进行告警。

<数据仓库的处理>

在数据仓库中，对分发的日志数据进行接收、结构化处理、加载处理等，以用于用户所需的报表生成、数据分析等应用。为了实现上述操作，数据仓库包括源数据模块、数据仓库模块、数据应用模块和任务监控与告警模块。图12示出了本实例的数据仓库的构架。

[源数据模块]

源数据模块接收来自日志分发的数据(包含json格式的数据)、各业务系统及其他数据。上游数据分发可支持实时数据分发。因此，在数据仓库接收日志数据时，可根据业务需求，选择实时数据接收或按固定时间进行接收数据，从而实现流批一体化。

[数据仓库模块]

首先，根据日志数据的类型，对接到收的Json格式日志数据进行轻量解析，该轻量解析包括对每次的请求及响应日志进行合并以及解析出预定的数据内容(例如，日志生成时间、零件名称、零件价格等)。

日志数据的类型可以根据不同的业务进行划分，例如，根据vin解析操作、vin+标准配件名查配件操作、vin+关键字查配件等进行划分，其中，vin为车架号。vin解析操作通过车架号解析出车辆的品牌、生产时间等信息。vin+标准配件名查配件操作通过车架号及标准的配件名来查询该车辆的配件品牌、配件编号、价格等信息。vin+关键字查配件通过车架号和关键字来查询车辆的配件信息。

然后，基于轻量解析后的结果，对Json格式日志的全部字段进行解析，对所有接收到的数据进行清洗、整合等操作，从而将所有的json格式的日志数据解析成适于数据统计分析的结构化日志数据，例如，二维表结构的日志数据。图13示出了在经过日志采集的预处理后的半结构化日志数据的实例。图14示出了在经过结构化处理的解析后生成的二维表结构的日志数据的实例。

最后，对二维表结构的日志数据进行再整合，根据业务类型将结构化的日志数据进行划分，并生成相关的数据模型，将该数据模型推送到ClickHouse数据库(一种善于数据分析(OLAP)领域的数据库)。ClickHouse数据库与同类的数据库相比在同类应用场景下的查询效率较高。此外，将数据处理(Greenplum)与支撑终端报表应用的数据库(ClickHouse)分离，即，将数据处理与终端用户查询应用分离，从而在性能上减轻了这两个环节的资源竞争，进而减轻服务器压力，因此能够保证各自功能的稳定性。

[数据应用模块]

利用ClickHouse数据库中的各种数据模型，生成业务方所需的各种报表、统计数据等内容。通常在该模块中会预制例如报表的模板，从而根据不同的数据输入，输出不同的报表内容。

[任务监控与告警模块]

在ETL(清洗、转换、加载)数据处理过程中，使用了Azkaban任务调度工具，在任务处理过程中可对任务处理情况(例如，解析格式的正确性)进行监控，并对有问题的内容进行告警。

图15示出了整个日志处理过程的简化流程图。

<指标体系>

可以用根据车辆保险的需求选用适当的指标来生成报表。图16A和16B示出了指标的实例。具体地，图16A示出了关于定损案量和金额的各个指标，图16B示出了关于定损成本的各个指标。

<报表展示>

用户通过选取所需的指标，利用本发明的日志数据的处理方法和日志数据的处理装置，生成用户需要的车辆报表。图17A和17B示出了利用本发明日志数据的处理方法和装置所生成的报表的实例。具体地，图17A示出了基于定损案件数与金额段生成的报表，图17B示出了基于配件外修率与车龄的报表。

参见图18，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行程序/实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图19示出了本实施例提供的用于实现上述方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

根据本发明的日志数据的处理方法、装置、系统以及介质，其针对车辆保险的日志数据能够进行有效地解析并存储，从而能够支持多维度且深层次的报表生成、数据分析、终端用户查询等数据统计业务。此外，通过在结构化处理之前进行作为预处理的半结构化处理，能够分担针对大量数据的处理负荷，并能够有效地解析出服务所需的数据；数据的结构化处理与支撑应用的数据库分离，从而减轻了这两个部分的资源竞争，进而减轻服务器的压力

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。以上示例性实施例仅仅是用于阐明本发明的原理，而并非用于限定本发明的保护范围。本领域技术人员在不背离本发明所揭示的精神和原理的范围内，可以对本发明做出各种改进，而不会超出由权利要求书限定的范围。

Claims

1.一种日志数据的处理方法，包括：

获取步骤，获取车辆保险的日志数据；

预处理步骤，基于服务类型，利用Flink引擎对获取的所述日志数据进行预处理，以生成具有预定格式的半结构化日志数据；

结构化处理步骤，根据所述日志数据的类型，对所述半结构化日志数据进行结构化处理，以将所述半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及

加载步骤，将所述结构化日志数据加载到数据库中，

其中，所述预处理步骤具体包括：

对所述日志数据进行筛选，以筛选出与所述服务类型相关的日志数据；以及

从筛选的所述日志数据中，获取用户的请求及响应信息，以生成所述半结构化日志数据，其中，对所述请求及响应信息中的预定的字段进行结构化，以对所述日志数据的属性进行标识，

所述结构化处理步骤具体包括：

针对所述日志数据的类型，对所述日志数据进行轻度解析，以提取特定类型的数据内容；以及

将轻度解析后的所述数据内容进行清洗和整合，从而转换为具有二维表结构形式的所述结构化日志数据，

所述加载步骤具体包括：

将所述结构化日志数据转换为与服务类型相关的车辆保险的数据模型；以及

将所述车辆保险的数据模型存储到所述数据库中，并且

基于所述数据库中的所述车辆保险的数据模型，生成车辆保险的报表数据。

2.根据权利要求1所述的日志数据的处理方法，其中，所述预定格式的半结构化日志数据包括json数据格式的半结构化日志数据。

3.根据权利要求1或2所述的日志数据的处理方法，还包括：存储步骤，在所述预处理步骤之后，将所述半结构化日志数据存入到Kafka的消息队列中，并且

在所述结构化处理步骤中，对来自所述Kafka的消息队列中的所述半结构化日志数据进行结构化处理。

4.根据权利要求1或2所述的日志数据的处理方法，其中，在所述结构化处理步骤和所述加载步骤进行的过程中，对所述日志数据进行监控，以对格式错误的日志数据进行告警。

5.根据权利要求1所述的日志数据的处理方法，还包括：分发步骤，在所述预处理步骤之后，将生成的所述半结构化日志数据向多个目标系统进行分发，其中，将与所需的日志类型相关的所述半结构化日志数据向作为多个目标系统中的一个目标系统的数据仓库系统进行发送，以进行所述结构化处理。

6.根据权利要求5所述的日志数据的处理方法，还包括：接收步骤，在所述分发步骤之后，实时或按预定的时间接收所述半结构化日志数据，以进行所述结构化处理。

7.根据权利要求1或2所述的日志数据的处理方法，其中，所述获取步骤具体包括：将服务器上的原始日志数据直接输出到本地文件系统以获取日志数据，或者通过NFS对服务器上的原始日志数据进行获取。

8.根据权利要求1或2所述的日志数据的处理方法，其中，所述数据库包括ClickHouse数据库。

9.一种日志数据的处理装置，包括：

获取单元，该获取单元获取车辆保险的日志数据；

预处理单元，该预处理单元基于服务类型，利用Flink引擎对获取的所述日志数据进行预处理，以生成具有预定格式的半结构化日志数据；

结构化处理单元，该结构化处理单元根据所述日志数据的类型，对所述半结构化日志数据进行结构化处理，以将所述半结构化日志数据转换为适于数据统计分析的结构化日志数据；以及

加载单元，该加载单元将所述结构化日志数据加载到数据库中，

其中，所述预处理单元：

所述结构化处理单元：

所述加载单元：

将所述车辆保险的数据模型存储到所述数据库中，并且

10.一种日志数据的处理系统，包括：

处理器；和

存储装置，用于存储程序，

所述处理器执行所述程序，以实现如权利要求1-8中任一项所述的日志数据的处理方法。

11.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行，以实现如权利要求1-8中任一项所述的日志数据的处理方法。