CN107704478A

CN107704478A - 一种写入日志的方法和系统

Info

Publication number: CN107704478A
Application number: CN201710028788.0A
Authority: CN
Inventors: 陈亚川; 苗辉
Original assignee: Guizhou White Cloud Technology Co Ltd
Current assignee: Guizhou White Cloud Technology Co Ltd; Guizhou Baishancloud Technology Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2018-02-16
Anticipated expiration: 2037-01-16
Also published as: WO2018130222A1; CN107704478B

Abstract

本发明公开了一种写入日志的方法和系统。所述方法包括：步骤1，获取多条日志；步骤2，根据所述日志中包含的域名的请求量，将所述日志划分为N个等级，其中N为大于等于1的正整数；步骤3，根据所述日志的等级，分别读取所述日志，并写入HDFS系统。采用本发明的方法和系统，杂乱无章的日志文件在写入HDFS系统后，就变得清楚有序，通过HDFS系统中记录的文件名就可以快速、准确地查到的某个域名某个时间段的访问情况。

Description

一种写入日志的方法和系统

技术领域

本发明涉及网络领域，尤其涉及一种写入日志的方法和系统。

背景技术

Hadoop分布式文件系统(简称HDFS)是一个高度容错性的系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

在客户端提交域名解析请求时，会生成访问日志。根据域名被访问的次数不同，生成的访问日志文件的容量大小不一。这样，在将访问日志文件存储到HDFS系统上时，由于小容量文件的数量非常多，这就需要频繁打开文件读取其中内容，从而造成系统崩溃。此外，在提交域名解析请求时生成的访问日志文件大多是杂乱无章的，如果直接将这些杂乱的日志文件写入HDFS系统，则会使后续处理非常麻烦。

因此，需要一种能够提高日志写入HDFS系统的吞吐量的写入方法和系统。

发明内容

为了解决现有技术中存在的问题，提供了一种写入日志的方法和系统，该方法和系统能够解决将日志问写入HDFS系统时吞吐量不够的问题，且能够对杂乱无章的日志文件进行整理。

根据本发明的一个方面，提供了一种写入日志的方法，所述方法包括：

步骤1，获取多条日志；

步骤2，根据所述日志中包含的域名的请求量，将所述日志划分为N个等级，其中N为大于等于1的正整数；

步骤3，根据所述日志的等级，分别读取所述日志，并写入HDFS系统。

其中，所述步骤2中的域名的请求量为在写入日志前统计的所述域名的请求量。

其中，所述步骤3还包括：将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。

其中，使用第一Flume系统执行所述步骤1和所述步骤2，使用第二Flume系统执行所述步骤3，所述第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。

其中，所述方法在所述步骤2和所述步骤3之间还包括：

将不同等级的日志分别存储至M个不同的日志队列中，其中M为大于等于1的正整数，M＝N。

其中，使用Kafka系统维护所述M个日志队列。

其中，所述步骤1包括：所述第一Flume系统中的source组件读取所述多条日志；

所述步骤2包括：所述第一Flume系统中的source组件对所述日志划分等级，并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中，使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。

其中，所述步骤3包括：

所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志，将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中，使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。

其中，所述映射算法为哈希算法。

根据本发明的另一个方面，还提供了一种写入日志的系统，所述系统包括：

获取模块，用于获取多条日志；

分级模块，用于根据所述日志中包含的域名的请求量，将所述日志划分为N个等级，其中N为大于等于1的正整数；

写入模块，用于根据所述日志的等级，分别读取所述日志，并写入HDFS系统。

其中，所述域名的请求量为在写入日志前统计的所述域名的请求量。

其中，所述写入模块还用于：

将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。

其中，所述获取模块和所述分级模块由第一Flume系统实现，所述写入模块由第二Flume系统实现，所述第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。

其中，所述系统还包括：

存储模块，用于维护M个不同的日志队列，不同等级的日志分别存储至M个不同的日志队列中，其中M为大于等于1的正整数，M＝N。

其中，所述存储模块由Kafka系统实现。

其中，所述获取模块由所述第一Flume系统中的source组件实现；

所述分级模块由所述第一Flume系统中的source组件、N个channel组件以及N个sink组件实现，所述第一Flume系统中的source组件对所述日志划分等级，并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中，使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。

其中，所述写入模块由所述第二Flume系统中的Flume子系统实现，所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志，将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中，使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。

其中，所述映射算法为哈希算法。

本发明中的写入日志的方法和系统，对请求量大的域名日志和请求量小的域名日志进行分类，尤其是将数量庞大的请求量小的域名日志分配到不同的通道并写入HDFS系统中，克服了频繁打开小容量日志文件导致的吞吐量太小的问题。并且在写入请求量小的域名日志时，将访问目标为同一域名并且访问时间位于同一时间段的日志写入HDFS系统中相同类别的文件中，即HDFS系统中同一个文件中日志指向同一域名且时间戳位于同一时间段。这样，杂乱无章的日志文件在写入HDFS系统后，就变得清楚有序，通过HDFS系统中记录的文件名就可以快速、准确地查到的某个域名某个时间段的访问情况。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明的写入日志的方法的流程图；

图2是根据本发明的写入日志的方法具体实施例的示意图；

图3是根据本发明的第二Flume系统中一个Flume子系统的示意图；

图4是根据本发明的写入日志的系统的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明提供了一种写入日志的方法。如图1所示，该方法包括：

步骤101，获取多条日志；

步骤102，根据所述日志中包含的域名的请求量，将所述日志划分为N个等级，其中N为大于等于1的正整数；

步骤103，根据所述日志的等级，分别读取所述日志，并写入HDFS系统。

步骤102中的域名的请求量为准写入日志前统计的域名的请求量。例如，可以根据网站(即，域名)的访问量(即，请求量)对网站进行排名。访问量较大的网站被划分到较高等级，访问量较小的网站被划分到较低等级。划分的等级个数可以根据实际情况来定，划分的等级个数越多，则写入HDFS系统的速度越快，但是所需要的系统资源也越多。

步骤103还包括：将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。即，在读取日志后，根据日志中包含的域名以及相应的时间戳来对日志进行分类，将属于同一类的日志写入HDFS系统中相同类别的文件中。

上述步骤101-103可以由两个Flume系统实现，其中，使用第一Flume系统执行步骤101和步骤102，使用第二Flume系统执行步骤103，并且第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。即第二Flume系统包括的Flume子系统的数量与根据日志中域名的请求量将日志划分成的等级数量相同。每一组Flume子系统负责处理相应的一个等级的日志向HDFS系统的写入。在使用两个Flume系统实现上述方法时，第一Flume系统中的sink组件中的日志分别被读入到第二Flume系统中相应的Flume子系统的source组件中。需要注意的是，第二Flume系统的各Flume子系统可以包括多个source组件。

第一Flume系统的操作具体可以包括：在步骤1中，第一Flume系统中的source组件读取多条日志；在步骤2中，第一Flume系统中的source组件对日志划分等级，并将N个等级的日志分别分配到第一Flume系统中的N个channel组件中，使用与N个channel组件一一对应的第一Flume系统中的N个sink组件分别读取各对应的N个channel组件中的日志。

第二Flume系统的操作具体可以包括：在步骤3中，第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志，将读取的日志利用映射算法分配到该Flume子系统的多个channel组件中，使用与多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的channel组件中的日志。其中，所采用的映射算法为哈希算法。

另外，在步骤102和步骤103之间包括：将不同等级的日志分别存储至M个不同的日志队列中，其中M为大于等于1的正整数，M＝N。并且，使用Kafka系统维护该M个日志队列。在这种实现方式中，在第一Flume系统和第二Flume系统之间加入Kafka系统，在该Kafka系统中设置多个日志队列，且日志队列的个数与日志划分成的等级数量相同，将不同等级的日志分别存储至Kafka系统中各对应的日志队列中。

下面参照图2描述了根据本发明的写入日志的具体实施例。图2包括第一Flume系统、Kafka系统，以及第二Flume系统。需要说明的是，这里的Flume系统和Kafka系统都是示例性的，也可以由其他具有相同功能的系统实现图1中所示的写入日志的方法。

在第一Flume系统中，通过其中的source组件获取多条日志，并根据日志中包含的域名的请求量，将日志划分为两个等级。这种等级划分是根据域名请求量的多少进行的，请求量大的域名被划分到第一等级，请求量小的域名被划分到第二等级。第一等级中的包含相同域名的日志条目数大于第二等级中的包含相同域名的日志条目数。然后将第一等级中的日志和第二等级中的日志分别通过第一channel组件和第二channel组件传输到第一sink组件和第二sink组件。

Kafka系统负责维护第一日志队列和第二日志队列。第一Flume系统中第一sink组件中的日志被写到第一日志队列中，第二sink组件中的日志被写到第二日志队列中。

在第二Flume系统中，分别读取第一日志队列中和第二日志队列中的日志，并将这些日志写入到HDFS系统中。具体地，该第二Flume系统包括第一Flume子系统和第二Flume子系统，其中，每个Flume子系统可以包括一个或多个source组件，每个source组件对应多个channel组件和sink组件。例如，第一Flume子系统和第二Flume子系统分别包括一个source组件。第一Flume子系统中的source组件从第一日志队列中读取请求量较大的域名的日志，第二Flume子系统中的source组件从第二日志队列中读取请求量较小的域名的日志。

对于请求量较大的域名来说，这种域名的数量较少，并且同一域名下日志的条数较多，因此在从第一Flume子系统写入HDFS系统时，较不易出现阻塞问题。对于请求量较小的域名来说，这种域名的数量非常庞大，但是同一域名下日志的条数较少，因此在从第二Flume子系统写入HDFS系统时，由于需要频繁打开文件读取及写入，非常容易出现堵塞问题。因此对于第二Flume子系统采用下述方式处理日志。而第一Flume子系统中一个source组件对应较少的channel组件及sink组件即可，例如，一个或两个channel组件及sink组件。

第二Flume子系统的工作过程如图3所示。图3示出了Flume子系统的示意图，其中以Flume子系统中包括一个source组件为例。即，在图3所示的系统中只是示意性地示出了一个source组件及其对应的channel组件和sink组件。其中，一个source组件对应于多个channel组件，每个channel组件又与一个sink组件一一对应。source组件对应的channel组件及sink组件的个数可根据实际需要进行设置。source组件采用映射算法(例如，哈希算法)将其读取出的日志映射输出到各个channel组件，并由各个对应的sink组件从相应的channel组件中读取日志，并写入HDFS系统中的相应文件中。其中，包含相同的域名，且包含的访问时间为相同时间段的日志被映射到同一个channel组件及其对应的sink组件中，然后再由对应的sink组件将其读取的日志写入到HDFS系统的同一个文件中。例如，source组件读取的日志中涉及4000个域名，source组件采用哈希算法将涉及该4000个域名的日志分配到4个channel组件中，每个channel组件与一个sink组件一一对应，每个sink组件处理与1000个域名相对应的日志，可以大大降低读取日志并写入HDFS系统的阻塞率。

上面是以Flume子系统中包括一个source组件为例描述的，当Flume子系统中包括多个source组件时，同一个Flume系统中的各source组件从同一个日志队列中读取日志，然后每个source组件通过哈希算法将读取的日志分别分配到与该source组件连接的多个channel组件，再由与每个channel组件一一对应的sink组件读取日志并写入到HDFS系统中。需要说明的是，一个Flume子系统包含的source组件的个数越多，则该Flume子系统可处理的日志的吞吐量越大。

本发明还提供了一种写入日志的系统，如图4所示，该系统包括：

获取模块401，用于获取多条日志；

分级模块402，用于根据所述日志中包含的域名的请求量，将所述日志划分为N个等级，其中N为大于等于1的正整数；

写入模块403，用于根据所述日志的等级，分别读取所述日志，并写入HDFS系统。

所述域名的请求量为在写入日志前统计的所述域名的请求量。

所述写入模块403还用于：将相同等级的日志中访问目标为同一域名并且访问时间位于同一时间段内的日志写入HDFS系统中相同类别的文件中。

所述获取模块401和所述分级模块402由第一Flume系统实现，所述写入模块403由第二Flume系统实现，所述第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。

所述系统还包括：存储模块，用于维护M个不同的日志队列，不同等级的日志分别存储至M个不同的日志队列中，其中M为大于等于1的正整数，M＝N。

所述存储模块由Kafka系统实现。

所述获取模块401由所述第一Flume系统中的source组件实现；

所述分级模块402由所述第一Flume系统中的source组件、N个channel组件以及N个sink组件实现，所述第一Flume系统中的source组件对所述日志划分等级，并将N个等级的日志分别分配到所述第一Flume系统中的N个channel组件中，使用与所述N个channel组件一一对应的所述第一Flume系统中的N个sink组件分别读取各对应的所述N个channel组件中的日志。

所述写入模块403由所述第二Flume系统中的Flume子系统实现，所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志，将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中，使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。

所述映射算法为哈希算法。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种写入日志的方法，其特征在于，所述方法包括：

步骤1，获取多条日志；

2.如权利要求1所述的方法，其特征在于，所述步骤2中的域名的请求量为在写入日志前统计的所述域名的请求量。

3.如权利要求1所述的方法，其特征在于，所述步骤3还包括：

4.如权利要求1所述的方法，其特征在于，

使用第一Flume系统执行所述步骤1和所述步骤2，使用第二Flume系统执行所述步骤3，所述第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。

5.如权利要求1、3或4所述的方法，其特征在于，所述方法在所述步骤2和所述步骤3之间还包括：

6.如权利要求5所述的方法，其特征在于，

使用Kafka系统维护所述M个日志队列。

7.如权利要求5所述的方法，其特征在于，

所述步骤1包括：所述第一Flume系统中的source组件读取所述多条日志；

8.如权利要求5所述的方法，其特征在于，所述步骤3包括：

9.如权利要求8所述的方法，其特征在于，所述映射算法为哈希算法。

10.一种写入日志的系统，其特征在于，所述系统包括：

获取模块，用于获取多条日志；

11.如权利要求10所述的系统，其特征在于，所述域名的请求量为在写入日志前统计的所述域名的请求量。

12.如权利要求10所述的系统，其特征在于，所述写入模块还用于：

13.如权利要求10所述的系统，其特征在于，

所述获取模块和所述分级模块由第一Flume系统实现，所述写入模块由第二Flume系统实现，所述第二Flume系统包括S组Flume子系统，其中S为大于等于1的正整数，S＝N。

14.如权利要求10、12或13所述的系统，其特征在于，所述系统还包括：

15.如权利要求14所述的系统，其特征在于，

所述存储模块由Kafka系统实现。

16.如权利要求14所述的系统，其特征在于，

所述获取模块由所述第一Flume系统中的source组件实现；

17.如权利要求14所述的系统，其特征在于，

所述写入模块由所述第二Flume系统中的Flume子系统实现，所述第二Flume系统中至少一个Flume子系统中的source组件读取与该Flume子系统相应的日志队列中的日志，将读取的所述日志利用映射算法分配到该Flume子系统的多个channel组件中，使用与所述多个channel组件一一对应的该Flume子系统的多个sink组件分别读取各对应的所述channel组件中的日志。

18.如权利要求17所述的系统，其特征在于，所述映射算法为哈希算法。