CN105975493A

CN105975493A - 一种文件合并方法及装置

Info

Publication number: CN105975493A
Application number: CN201610266690.4A
Authority: CN
Inventors: 方明
Original assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Current assignee: NSFOCUS Information Technology Co Ltd; Beijing NSFocus Information Security Technology Co Ltd
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2016-09-28

Abstract

本发明公开了一种文件合并方法及装置，该方法包括：在分布式数据库存储系统中，针对数据库中任一文件存储区，在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；从而有效的合并数据库中的小文件。

Description

一种文件合并方法及装置

技术领域

本发明涉及计算机大数据领域，尤其是涉及一种文件合并方法及装置。

背景技术

在计算机技术领域中，随着通信技术不断发展，网络设备不断增加，在不同的网络设备对应不同的日志，在数据库系统中，针对不同网络设备对应的日志，需要将该些日志转换为定义好的日志格式，并将转换后的日志存储，用于后续分析。

通常情况下，在接收到不同格式的日志时，根据预先定义好的日志格式将不同日志解析，解析成功后,日志存储到数据库中的存储区中，日志存储到数据库中之后，后续可以对存储的日志进行分析，告警、展示、提供报表等。安全分析对实时性要求很高，这就要求从日志接收，解析，入库，分析，出结果都必须尽量实时处理，每一个流程都必须快速响应，避免延时。然而，网络设备发出日志没有固定的规律可言，高峰期可能达到每秒数百万，低峰期可能没有日志。传统的数据库系统在高峰期承受不住这样的入库和存储压力，需要依赖能提供类Sql查询的分布式数据存储系统。在分布式数据存储系统中，每次写分布式文件的时间短，数据量或多或少，日积月累，会导致分布式数据存储系统写入了大量的小文件，小文件越多，后续的分析时需要加载和查询的文件也就越多，最终导致查询效率极低，难以做到实时响应。为了提高分析平台的实时响应能力，有必要对小文件进行合并处理。

传统的小文件合并是对一次写分布式数据系统的数据进行合并，写的数据要尽量多。但是数据量的多少由日志发送方控制。在进行处理时，需要对日志发送方发送的日志做出实时响应，无论日志或多或少，都需要把接收的日志快速写到分布式数据存储系统，在响应的过程中，就会生成大量的part-*格式的小文件。但是针对小文件合并，目前还没有提出一种有效方式合并小文件。

发明内容

本发明提供了一种文件合并方法及装置，用于有效地合并数据库中的小文件。

一种文件合并方法，包括：在分布式数据库存储系统中，针对数据库中任一文件存储区，在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；其中所述第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

确定所述文件存储区符合设定的文件合并条件，包括：确定所述文件存储区中的文件大小小于等于设定第一数值的文件的第一数量，和所述文件存储区中存储的全部文件的第二数量；若所述第一数量大于第一设定值，且所述第一数量和所述第二数量的比值大于或等于第二设定值时，确定所述文件存储区符合设定的文件合并条件。

还包括：删除所述临时存储区。

所述第一数值的取值范围是0M～15M，所述第一数量的取值范围是0～10，所述第二数量的取值范围是0～1。

所述第一数值的取值为10M，所述第一数量的取值为5，所述第二数量的取值为0.5。

一种文件合并装置，包括：判断模块，用于在分布式数据库存储系统中，针对数据库中任一文件存储区，确定所述文件存储区是否符合设定的文件合并条件，以及确定所述文件存储区中是否有存储的文件；执行模块，用于在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；其中所述第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

所述判断模块，具体用于确定所述文件存储区中的文件大小小于等于设定第一数值的文件的第一数量，和所述文件存储区中存储的全部文件的第二数量；若所述第一数量大于第一设定值，且所述第一数量和所述第二数量的比值大于或等于第二设定值时，确定所述文件存储区符合设定的文件合并条件。

所述执行模块，还用于删除所述临时存储区。

所述判断模块中设定的所述第一数值的取值范围是0M～15M，所述第一数量的取值范围是0～10，所述第二数量的取值范围是0～1。

所述判断模块中设定的所述第一数值的取值为10M，所述第一数量的取值为5，所述第二数量的取值为0.5。

通过采用上述技术方案，针对数据库中任一文件存储区，在确定出文件存储区符合设定的文件合并条件，且文件存储区中有存储的文件时，创建与数据库相同格式的临时存储区；将文件存储区中的文件复制到临时存储区中；以及将临时存储区中的文件回写入文件存储区中，合并所述文件存储区中的part-*格式的文件，不论写的数据量有多大，写的频率有多快，都可以合并，并且可以重复合并。资源充足的情况下可以并行合并，资源不足的情况下可以串行合并，合并不成功还可以扩充资源再次合并，直至合并成功为止。合并后的数据库查询分析性能在相同资源的情况，得到数量级的提升，大大节省了查询分析的所需的硬件资源和时间，提高系统的实时性。

附图说明

图1为本发明实施例中提出的文件合并方法流程图；

图2为本发明实施例中提出的确定是否符合设定的文件合并条件示意图；

图3为本发明实施例中，提出的文件合并装置结构组成示意图。

具体实施方式

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

在传统数据库系统中，在进行数据存储时，数据直接写入到数据库的存储区中，但是，传统的数据库系统并不能满足大量、快速的写入数据，因此提出分布式数据存储系统，以满足大量、快速的写入数据。分布式数据存储系统中，为了实现快速、大量的写入数据，文件写入按照块的方式写入，不同的存储区中分别划分大小相同或不相同的块，大量文件同时向不同的块写入。然后将写入数据的块进行整合，存储写入的数据。但是，在数据写入时，并不是所有数据的大小都和待写入块的大小相同，这就造成有的块只占用一部分。后续需要整合时，需要加载和查询的文件也就越多，最终将导致查询效率低，实时响应较差。针对次，本发明实施例提出一种文件合并方法，如图1所示，其具体处理如下述：

步骤11，在分布式数据库存储系统中，将数据库划分为不同的文件存储区。

本发明实施例提出的技术方案中，可以只针对划分的每个文件存储区中的文件进行合并，也可以针对不同的文件存储区之间进行文件合并。一种较佳地实现方式，本发明实施例提出的技术方案中，以针对划分的每个文件存储区中的文件进行合并为例进行详细阐述。假设Hive数据库tableA存储A类型日志，数据库tableA按天分区，分区字段为bsa_default_partition_day，该划分的文件存储区为bsa_default_partition_day＝20151127。

步骤12，针对数据库中任一文件存储区，确定该文件存储区是否符合设定的文件合并条件，如果判断结果为是，执行步骤13，反之结束处理。

如图2所示，确定文件存储区是否符合设定的文件合并条件的具体处理方式如下述：

步骤21，获得文件存储区中的各文件大小。

步骤22，确定该文件存储区中的各文件大小小于等于设定第一数值的文件的第一数量。

步骤23，确定该文件存储区中存储的全部文件的第二数量。

步骤24，若第一数量大于第一设定值，且第一数量和所述第二数量的比值大于或等于第二设定值时，确定文件存储区符合设定的文件合并条件。

其中，在上述步骤21～步骤24中，第一数值的取值范围是0M～15M，第一数量的取值范围是0～10，第二数量的取值范围是0～1。

具体地，第一数值的取值为10M，所述第一数量的取值为5，第二数量的取值为0.5。

其中，在上述步骤21～步骤24中，仅给出一种较佳地确定文件存储区是否符合设定的文件合并条件的实施方式，在具体实施时，设定的文件合并条件还可以根据不同需求做出调整。例如，设定的文件合并条件可以是第一数量大于某一数值，或者设定的文件合并条件是文件存储区中的包含文件大小小于等于设定第一数值的文件，在此不做具体地限定。

假设第一数量minFileNum＝5，第一数值smallFileSize＝10M，第二设定值threshold＝0.5。确定文件存储区是否符合设定的文件合并条件：

(1)该文件存储区中的小文件(文件大小小于smallFileSize的文件)数量大于minFileNum。

(2)该文件存储区中的小文件数量比上总文件数量大于等于阈值threshold。

同时满足上述2个条件才进行文件合并。

通过设定文件合并条件，在进行文件合并时，如果小文件的数量太少，或者小文件数量相对于该文件存储区汇总的总文件数量太少，在文件查询过程中，对系统性能影响不大，而当小文件数量占比较高的情况下，会影响系统的能行，本发明实施例提出的技术方案中，通过对小文件数太少，相对于总文件数太少，查询性能影响不大。只有当小文件数占比较高，才会极大的影响查询性能。本发明实施例上述提出的技术方案中，通过设定文件合并条件，只有在符合文件合并条件的情况下才进行文件合并，这样可以较好地节省处理资源。

步骤13，判断该文件存储区中是否有存储的文件，如果判断结果为是，执行步骤14，反之结束处理。

如果文件存储区bsa_default_partition_day＝20151127满足文件合并条件，计算该文件存储区的记录数。实现的HiveQL语句如下：

SELECT COUNT(1) FROM tableA WHEREbsa_default_partition_day＝20151127

假设查询结果的记录数为N。

步骤14，创建与数据库相同格式的临时存储区。

如果N大于0，创建与数据库tableA结构相同的临时存储区tableA_20151127_tmp,实现的HiveQL语句如下：

CREATE TABLE tableA_20151127_tmp LIKE tableA

步骤15，将文件存储区中的第一文件复制到临时存储区第二文件中。

在本发明实施以上述提出的技术方案中，为便于区分，将文件存储区中的文件和临时存储区中的文件作出区分，分别是第一文件和第二文件。

其中，第一文件和第二文件可以通过文件大小进行区分。具体地，第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

一种较佳地实现方式，小文件和大文件的示例请参见上述步骤13中的详细阐述。

具体地，将文件存储器bsa_default_partition_day＝20151127中的日志拷贝到临时存储区tableA_20151127_tmp中，实现的HiveQL语句如下：

INSERT INTO TABLE tableA_20151127_tmp PARTITION(bsa_default_partition_day＝20151127)SELECT*FROM tableA WHEREbsa_default_partition_day＝20151127 limit N

步骤16，将临时存储区中的第二文件回写入所述文件存储区中，以覆盖文件存储区中第一文件。

将临时存储区tableA_20151127_tmp中的文件回写到数据库tableA的文件存储区bsa_default_partition_day＝20151127分区中，实现的HiveQL语句如下：

INSERT OVERWRITE TABLE tableAPARTITION(bsa_default_partition_day＝20151127)SELECT*FROMtableA_20151127_tmp

本发明实施例上述提出的技术方案中，具体可以应用在HiveQL文件合并中，假设，创建的临时存储区为表dstB，原文件存储区为表srcA，在进行HiveQL文件合并过程中，将表srcA中的文件复制到表dstB中，再将表dstB中的文件写回到表srcA中，以完成表srcA中的part-*格式的文件合并。在使用HiveQL复制表srcA的文件到表dstB中时，对应语句为：

insert into table dstB select*from srcA limit N。

该HiveQL语句实际被解释成Hadoop里的Map和Reduce任务执行，而表srcA和dstB的文件实际是以part-*文件存储在hdfs文件系统中的。根据Hive的设计原理，Map任务的个数等于表srcA对应数据文件的块数，默认的块大小为128M，当一个part-*小于128M被认为是一个块，当一个part-*大于128M被分成128M倍数的块数(整除情况)或者块数+1(不整除情况)。

假如srcA对于数据有100个part-*小文件文件，每个文件都小于块大小(假如为5M)，就有100个Map任务，而Reduce任务数则是1(在没有group by的情况下)，而输出文件数等于Reduce任务数，输出文件数对应表dstB的数据对应的part-*文件数。再将表dstB中的文件回写表srcA中。对应语句为：

insert overwrite table srcA select*from dstB

同理，100*5M/128M＝3.9，对应4个Map任务数，最终也是产生一个Reduce任务(在没有group by的情况下)，对应一个输出文件。

可选地，在上述步骤16之后，还可以包括：

删除临时存储区。

删除临时存储区tableA_20151127_tmp，实现的HiveQL语句如下：

DROP TABLE IF EXISTS tableA_20151127_tmp

上述为本发明实施例提出的基于HiveQL实现的Hive数据库中一个分区的Hdfs小文件合并方法，在Hive数据库中，划分多个文件存储区，可以简称为分区，合并后文件数为1。合并的最少单位为分区，可以合并同一分区多次，也可以合并不同分区，处理资源足够的情况下，可以并行合并不同的分区，实现的HiveQL语句为：

SET HIVE.EXEC.PARALLEL＝TRUE；

资源不足的情况下，可以串行合并分区，实现方法，循环执行以上步骤即可。

本发明实施例上述提出的技术方案中，针对分布式文件系统中的小文件进行合并，实现方式是HiveQL，类SQL的语句的实现，门槛较低。不论写的数据量有多大，写的频率有多快，都可以合并，并且可以重复合并。资源充足的情况下可以并行合并，资源不足的情况下可以串行合并，合并不成功还可以扩充资源再次合并，直至合并成功为止。合并后的Hive数据库查询分析性能在相同资源的情况，得到数量级的提升，大大节省了查询分析的所需的硬件资源和时间，提高系统的实时性。

相应地，本发明实施例还提出一种文件合并装置，如图3所示，包括：

判断模块301，用于分布式数据库存储系统中，针对数据库中任一文件存储区，确定所述文件存储区是否符合设定的文件合并条件，以及确定所述文件存储区中是否有存储的文件。

执行模块302，用于在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；其中所述第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

具体地，上述判断模块301，具体用于确定所述文件存储区中的文件大小小于等于设定第一数值的文件的第一数量，和所述文件存储区中存储的全部文件的第二数量；若所述第一数量大于第一设定值，且所述第一数量和所述第二数量的比值大于或等于第二设定值时，确定所述文件存储区符合设定的文件合并条件。

可选地上述执行模块302，还用于删除所述临时存储区。

具体地，上述判断模块301中设定的所述第一数值的取值范围是0M～15M，所述第一数量的取值范围是0～10，所述第二数量的取值范围是0～1。

具体地，上述判断模块301设定的所述第一数值的取值为10M，所述第一数量的取值为5，所述第二数量的取值为0.5。

本发明实施例上述提出的文件合并装置，具体实现原理请参见上述方法实施例中的详细阐述，不再赘述。

本发明实施例上述提出的技术方案中，针对分布式数据存储系统中的小文件进行合并，实现方式是HiveQL，类SQL的语句的实现，门槛较低。不论写的数据量有多大，写的频率有多快，都可以合并，并且可以重复合并。资源充足的情况下可以并行合并，资源不足的情况下可以串行合并，合并不成功还可以扩充资源再次合并，直至合并成功为止。合并后的Hive数据库查询分析性能在相同资源的情况，得到数量级的提升，大大节省了查询分析的所需的硬件资源和时间，提高系统的实时性。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文件合并方法，其特征在于，包括：

在分布式数据库存储系统中，针对数据库中任一文件存储区，在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；

将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及

将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；

其中所述第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

2.如权利要求1所述的方法，其特征在于，确定所述文件存储区符合设定的文件合并条件，包括：

确定所述文件存储区中的文件大小小于等于设定第一数值的文件的第一数量，和所述文件存储区中存储的全部文件的第二数量；

若所述第一数量大于第一设定值，且所述第一数量和所述第二数量的比值大于或等于第二设定值时，确定所述文件存储区符合设定的文件合并条件。

3.如权利要求1或2所述的方法，其特征在于，还包括：

删除所述临时存储区。

4.一种文件合并装置，其特征在于，包括：

判断模块，用于在分布式数据库存储系统中，针对数据库中任一文件存储区，确定所述文件存储区是否符合设定的文件合并条件，以及确定所述文件存储区中是否有存储的文件；

执行模块，用于在确定出所述文件存储区符合设定的文件合并条件时，创建与所述数据库相同格式的临时存储区；将所述文件存储区中的第一文件复制到所述临时存储区第二文件中；以及将所述临时存储区中的第二文件回写入所述文件存储区中，以覆盖所述文件存储区中第一文件；其中所述第一文件是文件大小符合第一规则的小文件，第二文件是文件大小符合第二规则的大文件。

5.如权利要求4所述的装置，其特征在于，所述判断模块，具体用于确定所述文件存储区中的文件大小小于等于设定第一数值的文件的第一数量，和所述文件存储区中存储的全部文件的第二数量；若所述第一数量大于第一设定值，且所述第一数量和所述第二数量的比值大于或等于第二设定值时，确定所述文件存储区符合设定的文件合并条件。

6.如权利要求4或5所述的装置，其特征在于，所述执行模块，还用于删除所述临时存储区。