CN108897890A

CN108897890A - 一种基于时空双重压缩的分布式大数据日志汇聚方法

Info

Publication number: CN108897890A
Application number: CN201810754050.7A
Authority: CN
Inventors: 于富东; 匙凯; 杨林
Original assignee: Jinlin Jlu Communication Design Institute Co Ltd
Current assignee: Jinlin Jlu Communication Design Institute Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-11-27
Anticipated expiration: 2038-07-11
Also published as: CN108897890B

Abstract

一种基于时空双重压缩的分布式大数据日志汇聚方法，属于大数据日志采集和数据压缩处理技术领域，本发明引入了以时间和空间维度分别进行数据压缩的思想，在进行压缩时，充分的将日志数据中的天然信息加以识别，在进行真实的去重算法之前就将数据进行一定程度的优化，将时间字段在算法运行之前就进行归并，同一时间段的数据一块计算，“时间”字段就不会参与到耗费巨大的去重算法中，以此类推，“空间”字段也可以据此优化。这样也改善了去重算法中最关键的“如何确定切分快长度”的问题，整体上提高数压缩的准确率和效率，提升数据压缩的效果，数据经过有效的压缩之后，在传输到汇聚端存储，节约了大量的带宽和存储资源。

Description

一种基于时空双重压缩的分布式大数据日志汇聚方法

技术领域

本发明属于大数据日志采集和数据压缩处理技术领域，特别是涉及到一种基于时空双重压缩的分布式大数据日志汇聚方法。

背景技术

大数据时代的分布式日志汇聚过程中，来源于多个采集客户端的海量日志数据，并发的源源不断的向目标端汇聚传输，带来了带宽上的巨大压力，同时也向汇聚端的存储空间带来了严峻挑战，甚至会引起生产系统的运行不稳定。

目前，针对于分布式大数据日志汇聚的方法主要为以下三种：

(1)多采集客户端→汇聚端存储

使用ELK等日志采集和索引组件实现分布式日志汇聚：

Logstash安装在采集处，作为client，进行日志的搜集、过滤，client 端安装在需要收集日志的主机上，Logstash的server端负责将收到的各节点日志一并发往Elasticsearch上。Elasticsearch进行数据的分布式搜索引擎建模，提供搜集、存储功能。Kibana完成日志展示和检索的Web界面，即所有的数据传输和存储，以及优化都是在开源组件ELK内部实现的。

(2)多采集客户端→汇聚端存储→汇聚端本地压缩

在数据从多分布式的采集客户端采集之后传输到汇聚存储端，而后再采用通用的数据压缩算法进行日志的压缩，实现数据的大幅减少，达到节省存储资源的目的。

在进行压缩的时候，往往采取通用的去重类算法，纯粹的针对每一条日志的文本内容，与当前时间前的数据进行全量匹配，计算去重值，往往计算量大，具体的算法描述如下，假设原始数据Data为：

时间\位置	P1	P2	P3
				T1	D11	D12	D13
T2	D21	D22	D23
				T3	D31	D32	D33

一般来源于同一采集系统的日志在文本上有很大可能性的重复，如：

通用算法一般分两类：

一类是按照固定长度对日志字符串进行切分，然后计算每个切块数据的md5 值，如果对比得出两个数据块的md5值相同，可认为该数据块是重复的，可以进行去重，否则不去重；

另一类是执行的可变长度的切块，根据数据去重的经验，不断的自适应的优化切块的长度大小，以提高识别重复数据块的几率，从而缓慢提高去重比例；

上述例子来说，采用固定长度(如5个字符)切块算法后，效果如下：

最后去重结果为：

整个过程中识别出有三处不同数据块，其余可去重。

(3)多采集客户端→日志去重组件→汇聚端存储

和技术(2)类似，唯一区别在于压缩操作时在日志传输到汇聚存储端之前进行的，而后将压缩之后的数据传到汇聚端。

压缩的技术实现细节同技术(2)。

现有技术缺陷：

A、现有技术(1)中，采集客户端通过Logstatsh进行采集后，不做任何处理，即通过网络将各个采集客户端的原始日志数据，传输到汇聚存储端，故技术(1)中，原始数据未经过任何压缩和处理，所有数据都要通过网络传输，并实现全量的存储，则将带来巨大的网络带宽压力，同时汇聚侧的存储也需要大量宝贵空间来存储，系统整体成本和风险较高；

B、考虑到现有技术(1)中带宽和存储压力的问题，引入了压缩的机制，在数据从多个分布式的采集客户端采集并传输到汇聚端进行存储的方案中，虽然较明显的减少了需要实际存储的数据体量，但是全量的数据经过网络传输，仍然占用着大量的网络带宽资源，仍然有较大的系统级风险；

C、技术(3)针对技术(2)进行了优化，在日志数据到达汇聚存储端之前就已经经过了压缩，实现了带宽资源和存储资源的节约。但是在进行压缩的时候，往往采取通用的去重类算法，纯粹的针对每一条日志的文本内容，与当前时间前的数据进行全量匹配，计算去重值，往往计算量大，受很多因素影响，压缩效果不甚明显

D、除了以上针对于技术方案上的对比，在技术(2)和(3)中使用的通用去重算法也存在一定的问题，如下所述：

在上述事例中，D11，D12，D13为随机采集的三条数据，并不是严格按照时间先后顺序进行排序的，见下：

D11、D12、D13识别出“1000|”和“0900|”,需要经过2次匹配，识别出“设备305-5”和“设备305-8”，需经过2次匹配，即对于N行日志，则需要进行2*(N-1)次匹配。

但是上述2*(N-1)次匹配出来的信息均为“时间维度”和“空间维度(同位置维度)”的信息，是具有天然的规律性的，通过常规的去重算法来去重，显然没有利用到“时间”和“空间”的更深层次的规律，白白浪费了宝贵的计算资源。

技术(2)中的可变长度算法下，原理相同，同样不会发掘出分布式大数据日志中天然的规律，即“时间”和“空间”的更深层次的价值，计算资源同样会造成浪费。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是：提供一种基于时空双重压缩的分布式大数据日志汇聚方法，引入了以时间和空间维度分别进行数据压缩的思想，以实现减少压缩算法的计算量，提升压缩算法的效率，并节省带宽和存储资源的目的。

一种基于时空双重压缩的分布式大数据日志汇聚方法，其特征是：包括以下步骤，

步骤一、建立基于时空双重压缩的分布式大数据日志汇聚系统，包括一个以上的分布式采集客户端、压缩池模块以及汇聚存储端；所述压缩池包括一级去重池和二级去重池；

步骤二、分布式采集客户端将全量数据日志Data发送到压缩池模块并标记时间标签和位置标签；

步骤三、全量数据日志Data进入一级去重池内，按照时间维度进行分组划分，在同一秒内，将来自不同客户端的Data提取出时间字段，进行分组处理后取值相同，同时也保留设备ID字段在原始文本中，对其余字段进行去重，得到的元数据存储在位置元数据PlaceMetadata表中，获得全量去重后时间序列数据TS-Data；

步骤四、将步骤三获得的全量去重后数据TS-Data输入到二级去重池，将 TS-Data数据按照步骤三保留的设备ID字段进行分组，系统进行去重算法剔除掉设备ID字段，分组后的每一组数据为来源于每一个设备各时刻的去重后的数据；系统对TS-Data剔除设备ID字段后的剩余字段进行二次去重，得到的元数据存储在时序元数据TimeMetadata表中，获得经过全量去重后时间空间序列数据TPS-Data；

步骤五、经过步骤三和步骤四进行的时间维度和空间维度双重压缩，经过网络传输到汇聚存储端进行存储。

所述步骤二的时间标签为Data所处时段，精度为秒；位置标签为Data的客户端来源，精度为设备ID。

通过上述设计方案，本发明可以带来如下有益效果：一种基于时空双重压缩的分布式大数据日志汇聚方法，引入了以时间和空间维度分别进行数据压缩的思想，以实现减少压缩算法的计算量，提升压缩算法的效率，并节省带宽和存储资源的目的。

本发明的进一步有益效果在于：

1、通过本发明的方法可以识别出分布式大数据日志中的天然规律，即时间和空间维度数据的相似性，不参与到压缩计算中去，提升压缩的效率，节省计算资源；

2、本发明的压缩方法，采用了时间和空间的先后压缩的策略顺序，保证了数据在每一个维度上压缩的同时，而不破坏另一维度的规律性(即重合度)，保证两层压缩均可以达到预期效果。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明：

图1为本发明一种基于时空双重压缩的分布式大数据日志汇聚方法流程示意框图。

具体实施方式

一种基于时空双重压缩的分布式大数据日志汇聚方法，如图1所示，具体工作流程如下，

分布式采集客户端将全量数据日志Data发送到系统去重池模块，标记时间标签(即日志介于哪一个时段，如精度到秒)和位置标签(即日志来自于哪一个客户端，如精度到设备ID)，该数据称为Data，如：

首先在一级去重池内，将来自于多个分布式采集客户端的日志，按照时间维度(如精度到秒)进行分组划分，相同一秒内，针对来自几个客户端的Data 提取出时间字段，由于时间字段长度是固定的，经过分组处理后的取值相同，不必再经过去重算法分块，与此同时也保留设备ID字段在原始文本中，即针对 D11，D12，D13,…,Dn中剔除掉时间字段后，再屏蔽掉设备ID字段后，对其余字段进行去重，得到的元数据存储在位置元数据PM(即PlaceMetadata的缩写) 表中，此时的经过全量去重之后的数据成为TS-Data(即以时间为维度的D1， D2，D3，…，Dn)；

将经过一级去重池处理后的数据TS-Data输入到二级去重池，二级存储池在进行实际去重之前，将TS-Data数据按照之前保留的“设备ID”字段进行分组，与前面针对“时间”字段进行分组的原理相同，系统进行去重算法的时候，就可以剔除掉“设备ID”字段了，分组后的每一组代表着来源于每一个“设备”不同时刻的经过去重之后的数据，该数据仍然保留着时间层面上的数据重合。随后系统将针对TS-Data剔除“设备ID”字段后的剩余字段进行二次去重，得到的元数据存储在时序元数据TM表中，此时的经过全量去重之后的数据称之为 TPS-Data；

经过了时间维度和空间维度的双重压缩之后，大大减小了体量的数据，经过网络传输到汇聚存储端进行存储。

本发明中，引入了以时间和空间维度分别进行数据压缩的思想，在进行压缩时，充分的将日志数据中的天然信息加以识别，在进行真实的去重算法之前就将数据进行一定程度的优化，将时间字段在算法运行之前就进行归并，同一时间段的数据一块计算，“时间”字段就不会参与到耗费巨大的去重算法中，以此类推，“空间”字段也可以据此优化。这样也改善了去重算法中最关键的“如何确定切分快长度”的问题，整体上提高数压缩的准确率和效率，提升数据压缩的效果，数据经过有效的压缩之后，在传输到汇聚端存储，节约了大量的带宽和存储资源。

本发明中采用的数据去重算法为通用的基于文本固定长度，或可变长度切块去重技术。

Claims

1.一种基于时空双重压缩的分布式大数据日志汇聚方法，其特征是：包括以下步骤，

步骤四、将步骤三获得的全量去重后数据TS-Data输入到二级去重池，将TS-Data数据按照步骤三保留的设备ID字段进行分组，系统进行去重算法剔除掉设备ID字段，分组后的每一组数据为来源于每一个设备各时刻的去重后的数据；系统对TS-Data剔除设备ID字段后的剩余字段进行二次去重，得到的元数据存储在时序元数据TimeMetadata表中，获得经过全量去重后时间空间序列数据TPS-Data；

2.根据权利要求1所述的一种基于时空双重压缩的分布式大数据日志汇聚方法，其特征是：所述步骤二的时间标签为Data所处时段，精度为秒；位置标签为Data的客户端来源，精度为设备ID。