CN108519987A

CN108519987A - 一种数据持久化方法和装置

Info

Publication number: CN108519987A
Application number: CN201810158889.4A
Authority: CN
Inventors: 马秉楠; 吕雁飞; 白堃; 张鸿; 刘欣然; 惠榛
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2018-02-24
Filing date: 2018-02-24
Publication date: 2018-09-11

Abstract

本发明公开了一种数据持久化方法和装置。该方法包括：从Kafka中的预设Topic内，获取预先被转换为统一数据类型的数据；选择目标存储引擎；通过Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法，在本发明中，使用同一数据类型，通过一次数据序列化(转换为统一数据类型)实现了多存储引擎的统一加载，通过一次反序列化(转换为原数据类型)，实现多存储引擎的高效数据持久化。

Description

一种数据持久化方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据持久化方法和装置。

背景技术

随着计算机和信息技术的迅猛发展和普及应用，行业应用系统的规模迅速扩大，行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数百PB 规模的行业/企业大数据，已远远超出了传统计算机和信息技术系统的处理能力，如何快速有效的将这些海量数据进行汇总并快速加载到大数据平台中，从而支持后续数据的统计和分析，已经成为当前大数据生态圈的迫切需求。

在大数据存储系统中，针对不同的应用场景通常需要采用多种存储引擎，因为数据的元数据描述不同，无法在不同存储引擎统一进行数据加载，从而限制了海量数据的持久化效率。因此，在不同存储引擎下如何高效的进行数据持久化已经成为本领域技术人员亟待解决的问题。

发明内容

本发明要解决的技术问题是提供一种数据持久化方法和装置，用以解决现有技术不同存储引擎无法统一进行数据加载的问题。

为了解决上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种数据持久化方法，包括：从分布式消息系统Kafka中的预设消息主题Topic内，获取预先被转换为统一数据类型的数据；选择目标存储引擎；通过分布式数据收集系统Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

其中，在获取预先被转换为统一数据类型的数据之前，还包括：获取待持久化的数据的元数据信息；根据所述元数据信息，确定所述数据的数据类型；根据所述数据的数据类型和预设的统一数据模型，将所述数据的数据类型转换为统一数据类型；将具有统一数据类型的所述数据缓存到所述Kafka中的预设 Topic内。

其中，在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，还包括：通过监测文件句柄，确定所述Topic内被打开的文件数量；如果被打开的文件数量大于预设的第一阈值，则采用最近最少使用LRU策略，关闭部分文件。

其中，在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，还包括：监测所述Topic的缓存使用率；如果所述缓存使用率大于预设的第二阈值，则对所述Topic进行缓存清理。

其中，通过Flume将所述Topic内的数据加载到所述目标存储引擎，包括：所述Flume通过预设的持久化线程池，将所述Topic内的数据加载到所述目标存储引擎；其中，根据所述Topic内缓存的数据量动态调整所述持久化线程池中的线程数量。

本发明还提供了一种数据持久化装置，包括：获取模块，用于从Kafka 中的预设Topic内，获取预先被转换为统一数据类型的数据；选择模块，用于选择目标存储引擎；加载模块，用于通过Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

其中，所述装置还包括：转换模块；所述转换模块，用于在获取预先被转换为统一数据类型的数据之前，获取待持久化的数据的元数据信息；根据所述元数据信息，确定所述数据的数据类型；根据所述数据的数据类型和预设的统一数据模型，将所述数据的数据类型转换为统一数据类型；将具有统一数据类型的所述数据缓存到所述Kafka中的预设Topic内。

其中，所述装置还包括第一监测模块；所述第一监测模块，用于在通过 Flume将所述Topic内的数据加载到所述目标存储引擎之前，通过监测文件句柄，确定所述Topic内被打开的文件数量；如果被打开的文件数量大于预设的第一阈值，则采用最近最少使用LRU策略，关闭部分文件。

其中，所述装置还包括第二监测模块；所述第二监测模块，用于在通过 Flume将所述Topic内的数据加载到所述目标存储引擎之前，监测所述Topic 的缓存使用率；如果所述缓存使用率大于预设的第二阈值，则对所述Topic进行缓存清理。

其中，所述加载模块，进一步用于：所述Flume通过预设的持久化线程池，将所述Topic内的数据加载到所述目标存储引擎；其中，根据所述Topic内缓存的数据量动态调整所述持久化线程池中的线程数量。

本发明有益效果如下：

本发明提供一种基于Kafka和Flume的支持多存储引擎的数据持久化方法，在本发明中，使用同一数据类型，通过一次数据序列化(转换为统一数据类型) 实现了多存储引擎的统一加载，通过一次反序列化(转换为原数据类型)，实现多存储引擎的高效数据持久化。

附图说明

图1是根据本发明一实施例的数据持久化方法的流程图；

图2是根据本发明一实施例的数据持久化方法的具体流程图；

图3是根据本发明一实施例的数据持久化装置的结构图；

图4是根据本发明一实施例的数据持久化装置的具体结构图。

具体实施方式

AVRO是一个数据序列化系统，它提供了丰富的数据结构、压缩的，快速的，二进制的数据格式、动态语言的简单交互。

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本实施例提供一种数据持久化方法。如图1所示，为根据本发明一实施例的数据持久化方法的流程图。

步骤S110，从Kafka(分布式消息系统)中的预设Topic(消息主题)内，获取预先被转换为统一数据类型的数据。

在获取预先被转换为统一数据类型的数据之前，获取待持久化的数据的元数据信息；根据所述元数据信息，确定所述数据的数据类型；根据所述数据的数据类型和预设的统一数据模型，将所述数据的数据类型转换为统一数据类型；将具有统一数据类型的所述数据缓存到所述Kafka中的预设Topic内。

元数据信息，包括但不限于：数据的数据类型。

数据类型转换的步骤可以在用户设备侧执行，也可以在系统侧执行。

步骤S120，选择目标存储引擎。

存储引擎的种类包括但不限于：Hive(一种数据仓库工具)、Elastic Search (基于Lucene的搜索服务器，简称ES)和Hbase(Hadoop Database，Hadoop 数据库)。

可以根据需求，在存储引擎中选择其中的一种或多种作为目标存储引擎。

步骤S130，通过Flume(分布式数据收集系统)将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

将数据的数据类型转换为统一数据类型，为数据的序列化过程。将所述数据从统一数据类型转换为所述数据原来的数据类型，为数据的反序列化过程。

针对步骤S110，具体而言：

本发明在元数据描述方面，在AVRO的数据类型的基础上，扩充数据类型，并针对不同存储引擎对应的数据类型进行映射，形成统一数据模型。其中， AVRO是一个数据序列化系统，其提供了丰富的数据结构、快速可压缩的二进制的数据格式、动态语言的简单交互。

统一数据模型，包括但不限于：数值型、字符串型、时间类型、文本型、 IP类型等统一数据类型。

统一数据类型例如表1所示，但是本领域技术人员应当知道的是，表1仅用于说明统一数据类型，而不用于限制统一数据类型的内容。

表1

在统一数据模型中包含统一数据类型和其他数据类型的映射关系。

如表2所示，在统一数据模型中包括统一数据类型分别和Hive存储引擎、 ES存储引擎、Hbase存储引擎的数据类型的映射关系。相应的，本领域技术人员应当知道的是，表2仅用于说明数据类型之间的映射关系，而不用于限制数据类型之间的映射关系。

表2

在获取到数据的元数据信息之后，可以通过元数据信息获得数据的数据类型，在统一数据模型中查询该数据类型和统一数据类型的映射关系，进而根据该映射关系将数据转换为统一数据类型，实现数据的一致性，方便后续高效地处理异构数据，简化数据格式转换操作。

在将数据转换为统一数据类型之后，对特定数据进行校验，以便减少外部数据在系统内的校验耗时。该特定数据例如是“TINYINT”、“IPv4”、“IPv6”。校验例如是：合法性校验。如：IPV4的时间戳为负数，则表示数据不合法。

上述数据类型转换的步骤，可以在用户设备侧执行，也可以在系统侧执行。如果数据类型转换在用户设备侧执行，可以有效提升系统侧的处理效率。

在Kafka中预设用于缓存具有统一数据类型的Topic，在根据统一数据模型中的映射关系，将数据转换为统一数据类型之后，将数据缓存到该预设的 Topic中。进一步地，通过调用Kafka的生产接口，将汇聚了多条数据的一个数据包缓存到预设的Topic中。

如果在用户设备侧执行数据类型转换，则在接收到用户设备侧发送的数据之后，在将数据缓存到Topic之前，可以对数据进行校验，识别数据的数据类型是否为统一数据类型，数据是否发生丢包等，校验通过，将数据缓存到Topic 内，校验不通过则，向用户设备发出错误消息，重新接收数据。

针对步骤S130，具体而言：

本发明可以通过Flume插件，实现针对Hive、ES、HBase等存储引擎的数据持久化功能。

具体的，所述Flume通过预设的持久化线程池，将所述Topic内的数据加载到所述目标存储引擎；其中，根据所述Topic内缓存的数据量动态调整所述持久化线程池中的线程数量。多个线程之间采用无阻塞模式。多个线程之间可以采用负载均衡的方式将Topic内的数据加载到所述目标存储引擎。

Flume维护一个持久化线程池，该持久化线程池中的线程数量随Topic中的数据量增减而增减。例如：预先设置多个数据量区间，每个数据量区间对应一个线程数量，根据Topic中的数据量所处的数据量区间动态调整线程数量。这种以动态增减线程的方式应对数据加载过程中的计算量的变化，可以减少了线程间的交互控制时间，提高了处理效率。

所述Flume通过持久化线程池，可以将Topic中的数据同时加载到多个目标存储引擎中，实现数据的多数据平台持久化。

线程在加载数据的过程中，如果发生异常(如网络异常)，则线程可以尝试重新加载。

在本发明中，为了进一步地提高数据序列化效率以及稳定性，还可以在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，执行以下操作：

通过监测文件句柄，确定所述Topic内被打开的文件数量；如果被打开的文件数量大于预设的第一阈值，则采用LRU(Least Recently Used，最近最少使用)策略，关闭部分文件；反之，则继续监测文件句柄。第一阈值可以是经验值或者实验获得的值。通过该方式可以使文件打开数可控、稳定。

监测所述Topic的缓存使用率；如果所述缓存使用率大于预设的第二阈值，则对所述Topic进行缓存清理；反之，则继续监测所述Topic的缓存使用率。保证系统稳定性。第二阈值为经验值或者实验获得的值。在进行缓存清理时，也可以使用LRU策略清理缓存。

如图2所示，为根据本发明一实施例的数据持久化方法的具体流程图。

步骤S210，从预设Topic中获取数据。

步骤S220，判断获取过程是否发生异常；如果是，则跳转到步骤S210，重试获取数据；如果否，则执行步骤S230。

该异常例如是：网络断开、数据格式错误、丢包。

步骤S230，判断该Topic的缓存使用率是否大于第二阈值；如果是，则执行步骤S240；如果否，则执行步骤S250。

步骤S240，对该Topic进行缓存清理，之后执行步骤S250。

步骤S250，判断该Topic内被打开的文件数量是否大于第一阈值；如果是，则执行步骤S260；如果否，则执行步骤S270。

步骤S260，采用LRU策略，关闭部分文件，之后执行步骤S270。

步骤S270，选择目标存储引擎，并将数据放置到持久化线程池中。

步骤S280，通过持久化线程池将数据加载到目标存储引擎进行数据持久化。

在加载过程中，如果发生异常则进行重试将数据加载到目标存储引擎。

基于本发明，在将数据加载到目标存储引擎之后，目标存储引擎可以根据数据的元数据信息，获得数据原来的数据类型，进而将数据从统一数据类型转换为原来的数据类型，并对转换后的数据进行持久化操作。该转换数据类型的过程可以称为反序列化过程。

本发明a)针对整体流程的各个衔接部分进行了容错处理，包括：对Kafka 数据读取过程中的容错处理、对数据放置在缓存中的处理、对数据持久化过程中的容错处理；b)增加了对系统使用线程数量、内存数量、文件打开句柄数量、网络连接耗时等系统内资源使用情况的监控；c)支持对各个环节处理的数据进行计数管理，包括接收、处理、完成发送、完成持久化的数据条数、大小等内容的收集和记录。

本发明还提供一种数据持久化装置。如图3所示，为根据本发明一实施例的数据持久化装置的结构图。

该数据持久化装置，包括：

获取模块310，用于从Kafka中的预设Topic内，获取预先被转换为统一数据类型的数据。

选择模块320，用于选择目标存储引擎。

加载模块330，用于通过Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

加载模块330，进一步用于：所述Flume通过预设的持久化线程池，将所述Topic内的数据加载到所述目标存储引擎；其中，根据所述Topic内缓存的数据量动态调整所述持久化线程池中的线程数量。

如图4所示，为根据本发明一实施例的数据持久化装置的具体结构图。

所述装置还包括：转换模块340、第一监测模块350、第二监测模块360。

所述转换模块，用于在获取预先被转换为统一数据类型的数据之前，获取待持久化的数据的元数据信息；根据所述元数据信息，确定所述数据的数据类型；根据所述数据的数据类型和预设的统一数据模型，将所述数据的数据类型转换为统一数据类型；将具有统一数据类型的所述数据缓存到所述Kafka中的预设Topic内。

所述第一监测模块，用于在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，通过监测文件句柄，确定所述Topic内被打开的文件数量；如果被打开的文件数量大于预设的第一阈值，则采用最近最少使用LRU策略，关闭部分文件。

所述第二监测模块，用于在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，监测所述Topic的缓存使用率；如果所述缓存使用率大于预设的第二阈值，则对所述Topic进行缓存清理。

本实施例所述的装置的功能已经在图1和图2所示的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种数据持久化方法，其特征在于，包括：

从分布式消息系统Kafka中的预设消息主题Topic内，获取预先被转换为统一数据类型的数据；

选择目标存储引擎；

通过分布式数据收集系统Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

2.如权利要求1所述的方法，其特征在于，在获取预先被转换为统一数据类型的数据之前，还包括：

获取待持久化的数据的元数据信息；

根据所述元数据信息，确定所述数据的数据类型；

根据所述数据的数据类型和预设的统一数据模型，将所述数据的数据类型转换为统一数据类型；

将具有统一数据类型的所述数据缓存到所述Kafka中的预设Topic内。

3.如权利要求1所述的方法，其特征在于，在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，还包括：

通过监测文件句柄，确定所述Topic内被打开的文件数量；

如果被打开的文件数量大于预设的第一阈值，则采用最近最少使用LRU策略，关闭部分文件。

4.如权利要求1所述的方法，其特征在于，在通过Flume将所述Topic内的数据加载到所述目标存储引擎之前，还包括：

监测所述Topic的缓存使用率；

如果所述缓存使用率大于预设的第二阈值，则对所述Topic进行缓存清理。

5.如权利要求1所述的方法，其特征在于，通过Flume将所述Topic内的数据加载到所述目标存储引擎，包括：

所述Flume通过预设的持久化线程池，将所述Topic内的数据加载到所述目标存储引擎；其中，

根据所述Topic内缓存的数据量动态调整所述持久化线程池中的线程数量。

6.一种数据持久化装置，其特征在于，包括：

获取模块，用于从Kafka中的预设Topic内，获取预先被转换为统一数据类型的数据；

选择模块，用于选择目标存储引擎；

加载模块，用于通过Flume将所述Topic内的数据加载到所述目标存储引擎，以便对所述数据执行持久化操作；其中，在所述目标存储引擎执行持久化操作之前，将所述数据从统一数据类型转换为所述数据原来的数据类型。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：转换模块；

8.如权利要求6所述的装置，其特征在于，所述装置还包括第一监测模块；

9.如权利要求6所述的装置，其特征在于，所述装置还包括第二监测模块；

10.如权利要求6所述的装置，其特征在于，所述加载模块，进一步用于：