CN111897867A

CN111897867A - 一种数据库日志统计方法、系统及相关装置

Info

Publication number: CN111897867A
Application number: CN202010826204.6A
Authority: CN
Inventors: 李亮; 范渊; 刘博�
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-06

Abstract

本申请提供一种数据库日志统计方法，包括：获取日志数据并存入循环缓冲区；在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。本申请利用基于Disruptor并发框架结构的循环缓冲区进行数据库日志数据的获取、解析和存储，利用Disruptor高吞吐和低延迟的特点，实现了数据高效的传输，减少日志数据在其他中间存储环境的占用时间，使得数据可以快速在不同的数据源之前进行数据操作。本申请还提供一种数据库日志统计系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

一种数据库日志统计方法、系统及相关装置

技术领域

本申请涉及数据库领域，特别涉及一种数据库日志统计方法、系统及相关装置。

背景技术

当前存储系统的日志分析采集会产生大量的格式不一的日志，比如:syslog、json、xml、csv等等，为将数据ETL化(Extract-Transform-Load，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)，需要对其进行大量的抽取、清洗、转换函数操作，最后入库到存储系统，为了方便查询，还需要将其索引、分类，对日志管理要求较高。相关技术中在日志数据的处理速度及准确性方面会大降低，并且无法满足数据源多种多样的变化，由于日志数据的处理入库过程较慢，进一步导致相应的日志数据存储紊乱，造成日志后续查询分析过程缓慢，不利于实现日志分析，给日志审计过程带来困难，影响用户基于日志数据的统计效率。

发明内容

本申请的目的是提供一种数据库日志统计方法、系统、计算机可读存储介质和电子设备，能够提高日志的处理入库效率。

为解决上述技术问题，本申请提供一种数据库日志统计方法，具体技术方案如下：

获取日志数据并存入循环缓冲区；其中，所述循环缓冲区为基于Disruptor并发框架结构的循环缓冲区；

在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。

可选的，在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据包括：

在所述循环缓冲区中对所述日志数据进行字段映射，得到数据字段；

对所述数据字段调用应用字典解析，得到预设格式的日志数据。

可选的，将所述日志数据存至目标数据库后还包括：

所述目标数据库的逻辑主库将所述日志数据解析为第二预设格式，并发送至逻辑备库；

所述逻辑备库将所述日志数据重做并保存。

可选的，包括：

在所述目标数据库中创建分区表，并配置所述分区表的分区键和分区策略；

其中，所述分区策略包括范围分区和列表分区。

可选的，包括：

在所述分区表中添加GIN扩展索引，以便利用所述GIN扩展索引在所述分区表中检索所述日志数据。

可选的，还包括：

利用Lucene索引基于所述分区表进行分块查询，得到分析结果；

将所述分析结果存入所述目标数据库。

可选的，还包括：

当所述日志数据的数据流量大于预设值时，利用消息队列对所述日志数据进行缓存；

相应的，所述获取日志数据并存入循环缓冲区包括：

从所述消息队列中获取日志数据，并将所述日志数据存入循环缓冲区。

本申请还提供一种数据库日志统计系统，包括：

获取模块，用于获取日志数据并存入循环缓冲区；其中，所述循环缓冲区为基于Disruptor并发框架结构的循环缓冲区；

存储模块，用于在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种数据库日志统计方法，包括：获取日志数据并存入循环缓冲区；在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。

本申请利用基于Disruptor并发框架结构的循环缓冲区进行数据库日志数据的获取、解析和存储，利用Disruptor高吞吐和低延迟的特点，实现了数据高效的传输，减少日志数据在其他中间存储环境的占用时间，使得数据可以快速在不同的数据源之前进行数据操作。在此基础上，由于Disruptor的全称无锁设计，便于在获取日志数据后对日志进行分析审计，简化日志的索引设计，有利于降低日志分析、审计和管理的复杂程度，提高日志数据的分析性能。本申请还提供一种数据库日志统计系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种数据库日志统计方法的流程图；

图2为本申请实施例所提供的一种数据库日志统计系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种数据库日志统计方法的流程图，该方法包括：

S101：获取日志数据并存入循环缓冲区；

S102：在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。

需要注意的是，循环缓冲区为基于Disruptor并发框架结构的循环缓冲区。本实施例公开的数据库日志统计方法可以采用11.5版本的PostgreSQL，运行在CentOS 7.7.1908的Linux系统上，采用Docker容器虚拟多个运行环境，提供PostgreSQL运行集群。当然本领域技术人员还可以采用其他版本的PostgreSQL，也可以采用其他设备提供PostgreSQL运行集群，均应在本申请的保护范围内。Disruptor是一个开源的并发框架，能够在无锁的情况下实现网络的队列并发操作。这个系统建立在JVM(Java Virtual Machine，Java虚拟机)平台上，核心是一个逻辑处理器。业务逻辑处理器完全运行在内存中(in-memory)，使用事件源(event sourcing)方式驱动。

步骤S101中，先获取日志数据并存入缓冲区，该日志可以直接来源于各客户机，也可以在日志数据的数据流量大于预设值时，先利用消息队列对日志数据进行缓存，则此时可以从消息队列中获取日志数据，并将日志数据存入循环缓冲区。但很显然，日志数据的源头依旧为各个客户机。

在获取得到日志数据后，将日志数据存入循环缓冲区。环形缓冲区通常有一个读指针和一个写指针。读指针指向循环缓冲区中下一次可读的数据，写指针指向循环缓冲区中下一次可写的位置。通过移动读指针和写指针就可以实现循环缓冲区的数据读取和写入。在通常情况下，读指针和写指针互不影响。如果仅仅有一个读用户和一个写用户，那么不需要添加互斥保护机制就可以保证数据的正确性。

在循环缓冲区中存入日志数据后，需要对不同格式的日志数据进行解析，以统一为预设格式，存入数据库。在此对于如何对日志数据进行解析不作具体限定，可以在循环缓冲区中先对日志数据进行字段映射，得到数据字段，再对数据字段调用应用字典解析，以得到预设格式的日志数据。此外，对于预设格式为何种格式数据不作具体限定，例如可以为json格式数据等等。

本申请利用基于Disruptor并发框架结构的循环缓冲区进行数据库日志数据的获取、解析和存储，利用Disruptor高吞吐和低延迟的特点，实现了数据高效的传输，减少日志数据在其他中间存储环境的占用时间，使得数据可以快速在不同的数据源之前进行数据操作。

在上述实施例的基础上，为了提高日志数据的存储稳定性，可以借助于PostgreSQL自带的物理复制，基于已经存储的日志数据的逻辑主库复制得到一模一样的逻辑从库。将日志数据存至目标数据库后，目标数据库的逻辑主库将日志数据解析为第二预设格式，并发送至逻辑备库，而逻辑备库则将日志数据重做并保存。之所以需要进行重做，在逻辑主库的日志数据发生损坏或者丢失时，可以利用逻辑备库的重做日志数据进行日志数据恢复，以恢复到系统宕机前状态，保证数据完整性。需要注意的是，第二预设格式可以为与预设格式不同的数据格式，也可以为相同的数据格式，若为相同的数据格式，则逻辑主库可以无需进行解析，直接将日志数据发送至逻辑从库存储。此时，需要注意的是，可以在执行S102中存至目标数据库时逻辑主库直接发送至逻辑从库，也可以现在逻辑主库落盘，此后再发送至逻辑从库。且，日志数据从循环缓冲区存至目标数据库中的逻辑主库的过程与日志数据从逻辑主库发送至逻辑从库的过程相互独立，互不影响。

基于上述实施例，作为优选的实施例，将日志数据存入目标数据库后，为了便于对日志数据进行审计、查询和统计，还可以在目标数据库中创建分区表，并配置分区表的分区键和分区策略；其中，分区策略包括范围分区和列表分区。分区键为各分区表之间的划分特征，可以为特定字段，例如create_time字段，即以时间或日期作为划分特征。特别的，由于日志数据的特性，可以使用范围分区，例如若日志每天入库，则分区表可以以一天为单位建立。此外，还可以使用定时任务提前创建分区表，例如设定每天建立一张分区表，用于在该分区表对应的分区存储当天接收到的日志数据。

进一步的，还可以在分区表中添加GIN扩展索引，以便利用GIN扩展索引在分区表中检索日志数据。GIN(Generalized Inverted Index,通用倒排索引)是一个键值存储对(key，posting list)集合的索引结构，其中key为键值，而posting list是一组出现过key的位置。GIN扩展索引可以快速查找到包含指定关键字的元组，因此GIN索引特别适用于多值类型的元素搜索，比如支持全文搜索，数组中元素的搜索。对于日志数据，其至少包含日期特征，因此可以利用GIN扩展索引提高日志数据的检索查询效率。

进一步的，在上述实施例的基础上，为了更好的实现日志数据的查询检索，还可以为日志数据添加事件ID，可以利用PostgreSQL的jsonb的BTREE结构直接添加索引，且PostgreSQL支持jsonb类型的键值检索。此时，对查询单个事件详情将采用索引扫描，进一步提高检索效率。为了方便，也可以直接使用to_tsquery函数查询文本内容，比如常见的字段查询、日志标识字段、日志分类等等。

进一步的，为了提高针对日志数据的统计分析效率，还可以结合Lucene索引进行分块查询，具体过程如下：

当查询时间范围很大时，尤其是对日志数据进行统计分析时，PostgreSQL的集群查询通常会很慢。这时，可以使用在数据分析处理阶段的Lucene索引进行分块查询，即利用Lucene索引基于分区表进行分块查询，得到分析结果，再将分析结果存入目标数据库。根据常见查询的条件，按时间(也可以是按天)将Lucene索引分开，查询速度可以明显加快。比如，查询某一个ip的在[A,B]时间的登录次数曲线图，并按天group by，按时间order by。通常这种查询在PostgreSQL上查询很慢，而Lucene处理很方便。

同时，Lucene索引的目录大小随着时间也会慢慢变大，Lucene查询可能也会变慢，此时可以对时间较早的数据的统计结果分析入库，这样利用了Lucene较好的分析能力，又平稳的把业务统计数据迁移到PostgreSQL库。本实施例主要解决了传统PostgreSQL在处理统计查询方面一些弱点，并且结合Lucene和PostgreSQL两者之间的优势，让日志分析不止于简单的查询，还能利用Lucene索引将统计后的数据实时输出，比如业务事件分析图表、热点事件大屏幕前端输出等等。

下面对本申请实施例提供的一种数据库日志统计系统进行介绍，下文描述的数据库日志统计系统与上文描述的数据库日志统计方法可相互对应参照。

参见图2，图2为本申请实施例所提供的一种数据库日志统计系统结构示意图，本申请还提供一种数据库日志统计系统，包括：

获取模块100，用于获取日志数据并存入循环缓冲区；其中，所述循环缓冲区为基于Disruptor并发框架结构的循环缓冲区；

存储模块200，用于在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据，并存至目标数据库。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据库日志统计方法，其特征在于，包括：

2.根据权利要求1所述的数据库日志统计方法，其特征在于，在所述循环缓冲区中对所述日志数据进行解析，得到预设格式的日志数据包括：

3.根据权利要求1所述的数据库日志统计方法，其特征在于，将所述日志数据存至目标数据库后还包括：

所述逻辑备库将所述日志数据重做并保存。

4.根据权利要求1所述的数据库日志统计方法，其特征在于，包括：

其中，所述分区策略包括范围分区和列表分区。

5.根据权利要求4所述的数据库日志统计方法，其特征在于，包括：

6.根据权利要求5所述的数据库日志统计方法，其特征在于，还包括：

将所述分析结果存入所述目标数据库。

7.根据权利要求1-6任一项所述的数据库日志统计方法，其特征在于，还包括：

相应的，所述获取日志数据并存入循环缓冲区包括：

8.一种数据库日志统计系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。

10.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-7任一项所述的方法的步骤。