CN108108476A

CN108108476A - 高可靠分布式日志系统的工作方法

Info

Publication number: CN108108476A
Application number: CN201810004313.2A
Authority: CN
Inventors: 李新明; 刘斌
Original assignee: Zhongke Edge Intelligence Information Technology (suzhou) Co Ltd
Current assignee: Zhongke Edge Intelligence Information Technology (suzhou) Co Ltd
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2018-06-01

Abstract

本发明提供一种高可靠分布式日志系统的工作方法，包括：提供一分布式文件系统，该分布式文件系统具有若干个存储节点、多个写入器、多个读取器；采用多个写入器将记录同时追加至一个日志文件中，生成一关于该日志文件的写入请求；接收前述日志文件的写入请求，为该日志文件分配一序列编号；为前述被分配了序列编号的日志文件生成多个副本，每个副本随机写入分布式文件系统的一个存储节点中，并且通过分布式文件系统传送至该日志对应的所有读取器中。本发明能够实现可用性及一致性的共存，实现高可用性，即服务永远在线，不允许出现离线状态，写入响应快，存在一定程度的数据读取，通常是读取最近写入的日志数据，同时具有持久性，降低数据丢失几率。

Description

高可靠分布式日志系统的工作方法

技术领域

本发明涉及分布式系统领域，属于高可靠分布式日志系统的工作方法。

背景技术

随着互联网技术的应用不断深入，各类应用系统产生的日志数据越来越多，日志数据的应用也越来越重要。所有信息系统平台每天会产生大量的日志，通常以流式数据为主，包括用户访问记录、数据库操作记录等，当数据量达到一定的数量级，传统的单节点系统已经无法完成检索及分析任务，必须使用分布式的日志系统对他们进行处理。目前主流的日志系统都是分布式系统，对于分布式日志系统，若想在大规模集群下处理高并发事务的同时满足强一致性、可用性、分区容错性三点要求是极为困难的事情，目前大多分布式日志系统最多只能满足其中两点，或者说偏向其中两点。其中的难点主要为：(1)在分布式系统下，满足了强一致性就必然会带来客户端得到响应延时的增加，就降低了可用性。(2)在分布式系统下，若想可用性更高，则必然不会满足强一致性，只能满足最终一致性。(3)若想同时满足强一致性和可用性，最好的办法就是采用单节点，但这样会产生单点问题，就无法满足分区容错性。

目前的分布式日志系统都有自己的解决方案，但也都存在一些缺陷。例如 Flume日志系统，其有极好的可用性和扩展性，但用户在发起读取请求时可能会读到较老的数据，即底层存储不是强一致的，对于写入的响应较慢。再如基于 Kafka的分布式日志系统，其虽有较高的吞吐，但其并未真正的实现数据可靠存储，因为Kafka并不是作为存储系统来提供服务的，其更多的是作为一个消息中间件。再如ELK(分布式搜索引擎，搜集工具，展示工具)日志系统，其在数据存储方面无法做到持久化，分布式搜索引擎并不能真正的作为文件系统来存储数据，其存在丢数据的风险。

发明内容

本发明的目的在于提供一种高可靠分布式日志系统的工作方法，能够实现可用性及一致性的共存，实现高可用性，即服务永远在线，不允许出现离线状态，写入响应快，存在一定程度的数据读取，通常是读取最近写入的日志数据，同时具有持久性，降低数据丢失几率。

为达到上述目的，本发明提供如下技术方案：

一种高可靠分布式日志系统的工作方法，包括：

提供一分布式文件系统，该分布式文件系统具有若干个存储节点、多个写入器、多个读取器；

采用多个写入器将记录同时追加至一个日志文件中，生成一关于该日志文件的写入请求；

接收前述日志文件的写入请求，为该日志文件分配一序列编号；

为前述被分配了序列编号的日志文件生成多个副本，每个副本随机写入分布式文件系统的一个存储节点中，并且通过分布式文件系统传送至该日志对应的所有读取器中。

进一步的，所述分布式文件系统采用卡萨分布式文件系统。

进一步的，所述方法还包括：

同一个日志文件中的记录将以同样的序列编号顺序传送至该日志文件所对应的读取器。

进一步的，所述方法还包括：

提供一内置的数据丢失检测和报告机制，其响应于任意一个记录丢失，将丢失记录的序列编号报告至请求读取该序列编号所对应日志文件的所有读取器。

进一步的，所述序列编号包括两个数字，其中一个数字被定义成纪元号，另一个数字是相对于第一个的偏移量。

进一步的，所述方法还包括：

对每个日志文件的元数据历史记录做相应的关于存储节点的注释，用以使读取器通过查阅注释连接至该日志文件所对应的存储节点。

进一步的，所述方法还包括：

响应于读取器请求联系任意一个存储节点，将该存储节点所存储的日志文件副本传输至传输控制协议继而传输至该读取器，读取器对接收的日志文件中的记录执行重新排序、重复数据删除操作。

进一步的，所述方法还包括：

采用一协调通信组件以保存序列编号，并生成一配置文件；

响应于配置文件发生变化，驱使协调通信组件生成一通知信息，发送至与该协调通信组件相对应的所有客户端；

响应于客户端发送的关于新配置文件的访问请求，将新的配置文件应用至该客户端。

进一步的，所述方法还包括：

为每个日志文件分配一设定阈值；

响应于任意日志文件的副本数量小于其所对应的设定阈值，重建该日志文件的副本。

进一步的，所述方法还包括：

采用内存和/或磁盘一存储日志文件。

本发明的有益效果在于：

能够实现可用性及一致性的共存，实现高可用性，即服务永远在线，不允许出现离线状态，写入响应快，存在一定程度的数据读取，通常是读取最近写入的日志数据，同时具有持久性，降低数据丢失几率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明的高可靠分布式日志系统的工作流程图。

图2是本发明的高可靠分布式日志系统的结构示意图。

图3为本发明的协调通信组件的结构示意图以及工作原理图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

结合图1、图2，本发明提及一种高可靠分布式日志系统的工作方法，包括：

提供一分布式文件系统，该分布式文件系统具有若干个存储节点、多个写入器、多个读取器。

采用多个写入器将记录同时追加至一个日志文件中，生成一关于该日志文件的写入请求。

接收前述日志文件的写入请求，为该日志文件分配一序列编号。

首先我们来理解下日志的概念，日志是记下有序序列的不可变记录，并将记录可靠存储起来的最简单方法。我们可以将日志视为一种面向记录、只可以追加、可修剪的文件。面向记录意味着，数据以不可分割的记录，而不是以单个字节写入日志。更重要的是，记录是最小的寻址单元，读取器始终开始从特定记录(或从追加到日志的下一条记录)读取，每次一个或多个记录地接收数据。

本发明所提及的技术方案中，无需保证记录编号是连续的，编号序列可能有间断，写入器事先不知道一旦成功写入，记录会被赋予什么样的日志序列编号。由于本系统并不受制于连续字节编号要求，因而出现故障时，它可以提供更好的写入可用性。

此外我们采用多处副本方式，即一个文件有多个副本，那么每次日志写入请求就有了几处写入地址选择，而不是单一一个节点，或者几个特定的节点。这不仅提高了分布式存储集群中的写入可用性，也提高了写入速率。

一旦记录被标上了序号，该记录的副本有可能存储在集群中的任何存储节点上。只要读取器可以高效地查找和检索副本，记录副本的放置不会影响日志的可重复读取属性。读取特定日志的客户端与允许存储该日志记录的所有存储节点联系。保存的该日志的节点集通常小于集群中存储节点的总数。

另外，当集群中的一部分节点宕机或者失去联系时，日志写入请求不会受到大规模的干扰，并且写入负载能够做到相对均衡，如此也保证了数据的持久性。

对于高可靠的分布式日志系统，还需要确保的就是数据一致性，系统提供的一致性保证是用户期望从文件获得的，尽管是面向记录的文件。

具体的，在系统中，会存在多个写入器和多个读取器，多个写入器可以同时将记录追加到同一个日志，所有这些记录将以同样的日志序列编号顺序传送给该日志的所有读取器，具有可重复的读取一致性。如果记录被传送给一个读取器，它还会被传送给遇到该日志序列编号的所有读取器，除非出现可能性极小的灾难性故障，导致记录的所有副本统统丢失。

优选的，所述分布式文件系统采用卡萨分布式文件系统。

这里多副本的实现采用的是卡萨分布式文件系统，卡萨分布式文件系统在多个节点上存储副本以确保可用性和数据容错。副本策略决定了副本的放置方法。集群中的副本数量被称为复制因子，复制因子为1表示每行只有一个副本，复制因子为2表示每行有两个副本，每个副本不在同一个节点。所有副本同等重要，没有主次之分。作为一般规则，副本因子不应超过在集群中的节点的树木。当副本因子超过节点数时，写入不会成功，但读取只要提供所期望的一致性级别即可满足。

优选的，所述方法还包括：

在一些例子中，所述方法还包括：

本系统提供了内置的数据丢失检测和报告机制。万一数据丢失，丢失的所有记录的日志序列编号将被报告给试图读取受影响的日志和日志序列编号范围的每个读取器。

在另一些例子中，所述序列编号包括两个数字，其中一个数字被定义成纪元号，另一个数字是相对于第一个的偏移量。

在本系统能够实现一致性并且成功实现写入快速响应，依赖于非确定性记录放置这个特点。许多成功的分布式文件系统采用了入站数据的放置选项最大化这个原则。比如在阿帕奇的分布式文件系统中，数据块可能放置在集群中的任何存储节点上，受制于名为名字节点的集中式元数据存储库带来的跨机架和空间方面的约束。在红帽西弗分布式文件系统中中，数据放置由多值哈希函数控制。哈希函数生成的值为入站数据项提供了多个放置选项。这就不需要名字节点，但是无法完全达到同样级别的放置灵活性。本文件系统专注于日志存储，采用了一种不同的记录放置方法，将日志里的记录顺序和实际存储的顺序区分开来，通过序列器产生一个序号，对每一行存储的日志进行重新序列标定。注意，这里提到的序列号不是一个数字，而是一对数字，第一个数字叫做纪元号，第二个是相对于第一个的偏移量。序列号生成器本身也是需要做好容灾的，也就是说，一旦一个序列号生成器服务不在线，另一个一定要被立即启用，而它生成的序列号要比当前已经存在的序列号大，因此保证了服务的高可用性。

在另一些例子中，所述方法还包括：

节点集是日志的复制策略的一部分。它可能随时更改，日志的元数据历史记录中有适当的注释，读取器可以查阅该注释，以便找到所要连接的存储节点。节点集让集群得以独立于读取器的数据来进行扩展。客户端联系的节点通过以尽快的速度将记录副本推向传输控制协议连接，将副本传送给客户端。每条记录的报头自然含有序号。客户端库对记录执行重新排序的操作，偶尔执行重复数据删除的操作，这些操作是确保记录按LSN的顺序传送给读取应用程序所必需的。对于主要顺序型的日志读取工作负载而言，这种方式很高效。读取器联系的所有存储节点可能会有一些记录要传送。根本不浪费IO和网络资源。可以确保，每个记录只有一个副本从磁盘读取，并通过在每个记录副本的报头中加入副本集，经由网络传送。一种基于副本集的简单的服务器端过滤方案以及密集副本集索引可保证：在稳定状态下，副本集中只有一个节点将读取记录副本，并传送给特定的读取器。由此实现了写入响应快的特性。

结合图3，所述方法还包括：

采用一协调通信组件以保存序列编号，并生成一配置文件。

响应于配置文件发生变化，驱使协调通信组件生成一通知信息，发送至与该协调通信组件相对应的所有客户端。

在本系统中采用协调通信组件保存序列号，协调通信组件是阿帕奇项目中的一个子项目，是阿帕奇集群管理的一个必不可少的模块，它主要用来控制集群中的数据，如它管理阿帕奇集群中的名字节点，还有阿帕奇列存储数据库中主节点的选举机制、服务器之间的状态同步等。存储序列号的思路与配置文件管理类似，配置文件的管理在分布式应用环境中很常见，例如同一个应用系统需要多台服务器运行，但是它们运行的应用系统的某些配置项是相同的，如果要修改这些相同的配置项，那么就必须同时修改每台运行这个应用系统的服务器，这样非常麻烦而且容易出错。诸如这样的配置信息完全可以交给协调通信组件来管理，将配置信息保存在协调通信组件的某个目录节点中，然后将所有需要修改的应用机器监控配置信息的状态，一旦配置信息发生变化，每台应用机器就会收到协调通信组件的通知，然后从协调通信组件获取新的配置信息应用到系统中。

在实际应用中，我们通过自动监测主节点内是否形成了新的配置文件，并在检测到形成了新的配置文件后主动上传到协调通信组件，并下发到各从节点加载到内存中用于搜索任务的处理，无需管理人员在发现主节点形成了新的配置文件之后，重启主节点再将新的配置文件上传，显然降低了主节点与从节点间配置文件同步的繁琐性，提高了设备的智能性，降低了同步成本。

进一步的，所述方法还包括：

为每个日志文件分配一设定阈值。

在实现数据持久性方面，本系统除采用多副本策略保证数据安全性外，还采用了多对多重建的方式。在生产环境中驱动器失效、电源失效、机架交换机失效是易发生的故障，由于这些故障经常发生，对一些或所有记录来说，可用副本数量随之减少。连续几次故障后可用副本数量降到零后，就会丢失数据，或至少丧失一些记录的读取可用性。两者都是糟糕结果，本系统力求尽量避免。重建为一次或多次故障后变得复制因子不足(少于副本的目标数量)的记录生成了更多副本。为了确保高效，重建一定要快。它要在下一次故障导致某个不走运的记录的最后一个副本丢失之前完成。与阿帕奇分布式文件系统相似，本系统采用了多对多重建。所有存储节点同时充当了记录副本的供体和受体。为重建调配整个集群的资源让本系统能够以最快的速度重建，全面恢复故障影响所有记录的复制因子。重建协调是完全分布式的，针对我们称为事件日志的内部元数据日志来执行。

进一步的，所述方法还包括：

采用内存和/或磁盘一存储日志文件。

此外对于存储方面，本系统采用内存+磁盘的方式存储日志，机械硬盘可以达到100-200MBps每秒的顺序读写速度，随机读写速度顶峰可以达到 100-140MBps每秒。用来存储日志的服务被称为日志存储模块，它是针对写入性能进行特殊优化过的。日志存储模块本身又是构建于柔克斯数据库之上的，柔克斯数据库是基于日志结构合并树的有序键值对存储层。柔克斯数据库的每一个实例对应日志存储模块的分区，当写入日志文件时，会写入到最新的分区，也就是最近访问过的柔克斯数据库实例，然后以顺序方式保存到磁盘。这种方式确保了写入的方式是顺序方式，只是需要合并文件。

对于严格遵守POSIX(可移植操作系统接口)语义的分布式文件系统而言，或者对于基于这种文件系统而建的日志存储系统而言，本系统宽松的数据模型得以在可用性、一致性、持久性和性能等方面达到更合理的折衷点。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种高可靠分布式日志系统的工作方法，其特征在于，包括：

2.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述分布式文件系统采用卡萨分布式文件系统。

3.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述序列编号包括两个数字，其中一个数字被定义成纪元号，另一个数字是相对于第一个的偏移量。

6.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

采用一协调通信组件以保存序列编号，并生成一配置文件；

9.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

为每个日志文件分配一设定阈值；

10.根据权利要求1所述的高可靠分布式日志系统的工作方法，其特征在于，所述方法还包括：

采用内存和/或磁盘一存储日志文件。