CN106855861A

CN106855861A - 一种文件合并方法、装置及电子设备

Info

Publication number: CN106855861A
Application number: CN201510900822.XA
Authority: CN
Inventors: 沈巧志
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2017-06-16

Abstract

本发明实施例公开了一种文件合并方法、装置及电子设备，方法包括：确定目标系统集群中包含小于第一预设文件大小的文件夹；确定所确定的文件夹中小于所述第一预设文件大小的文件；将所确定的文件进行合并；删除所确定的文件。应用本发明实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也不会影响文件处理结果，避免了影响文件处理结果的发生。

Description

一种文件合并方法、装置及电子设备

技术领域

本发明涉及分布式文件系统集群技术领域，特别涉及一种文件合并方法、装置及电子设备。

背景技术

分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。

通常情况下，分布式文件系统中会存在小文件。

但是，每一个小文件占用一个block(块)，每一个block的元数据都存储在内存里，导致分布式文件系统在小文件的处理上较消耗内存资源；另外由于小文件的存在，分布式文件系统在利用Har files处理小文件时，需要使用特殊的har指令，利用har指令会对脚本的代码进行更改，需要用户对更改的脚本代码进行修改，造成额外系统资源的占用；在利用Sequence Files处理小文件时，会在小文件首尾不规律的增加Sequence Files的文件戳，进而影响文件处理的结果。

发明内容

本发明实施例的目的在于提供一种文件合并方法、装置及电子设备，以节省系统资源的占用，避免影响文件处理结果情况的发生。

为达到上述目的，本发明实施例公开了一种文件合并方法，包括：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

可选的，所述将所确定的文件进行合并，包括：

通过MapReduce技术，将所确定的文件进行合并。

可选的，所述将所确定的文件进行合并，包括：

按照第二预设文件大小，将所确定的文件进行合并。

可选的，所述将所确定的文件进行合并，包括：

将所确定的文件中文件类型相同的文件合并为与所述文件类型相同的文件。

可选的，所述方法还包括：

将合并后的文件存储在原文件夹中；

或将合并后的文件存储在指定文件夹中。

为达到上述目的，本发明实施例公开了一种文件合并装置，包括：第一确定模块、第二确定模块、合并模块和删除模块，其中，

所述第一确定模块，用于确定目标系统集群中包含小于第一预设文件大小的文件夹；

所述第二确定模块，用于确定所述第一确定模块确定的文件夹中小于所述第一预设文件大小的文件；

所述合并模块，用于将所述第二确定模块确定的文件进行合并；

所述删除模块，用于删除所述第二确定模块确定的文件。

可选的，所述合并模块，具体用于：

通过MapReduce技术，将所述第二确定模块确定的文件进行合并。

可选的，所述合并模块，具体用于：

按照第二预设文件大小，将所述第二确定模块确定的文件进行合并。

可选的，所述合并模块，具体用于：

将所述第二确定模块确定的文件中文件类型相同的文件合并为与所述文件类型相同的文件。

可选的，所述装置还包括：存储模块，其中，

所述存储模块，用于将合并后的文件存储在原文件夹或指定文件夹中。

为达到上述目的，本发明实施例提供了一种电子设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

为达到上述目的，本发明实施例提供了一种存储介质，其中，该存储介质用于存储应用程序，所述应用程序用于在运行时执行本发明实施例所述的一种文件合并方法。

为达到上述目的，本发明实施例提供了一种应用程序，其中，该应用程序用于在运行时执行本发明实施例所述的一种文件合并方法。

由上述的技术方案可见，本发明实施例提供了一种文件合并方法、装置及电子设备，方法包括：确定目标系统集群中包含小于第一预设文件大小的文件夹；确定所确定的文件夹中小于所述第一预设文件大小的文件；将所确定的文件进行合并；删除所确定的文件。

应用本发明实施例所提供的技术方案，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的文件合并方法的第一种流程示意图；

图2为本发明实施例所提供的文件合并方法的第二种流程示意图；

图3为本发明实施例所提供的文件合并方法的第三种流程示意图；

图4为本发明实施例所提供的文件合并装置的第一种结构示意图；

图5为本发明实施例所提供的文件合并装置的第二种结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种文件合并方法、装置及电子设备。下面首先对本发明实施例提供的一种文件合并方法进行详细说明。

图1为本发明实施例所提供的文件合并方法的第一种流程示意图，可以包括：

S101：确定目标系统集群中包含小于第一预设文件大小的文件夹；

其中，在实际应用中，目标系统集群可以为HDFS(Hadoop Distributed FileSystem，Hadoop分布式文件系统)集群。

S102：确定所确定的文件夹中小于所述第一预设文件大小的文件；

S103：将所确定的文件进行合并；

S104：删除所确定的文件。

在实际应用中，针对某一文件夹，判断其是否为包含小于第一预设文件文件的文件夹，可以将该文件夹中的文件按照文件大小由小至大的顺序进行排序，判断最小的文件的大小是否不小于第一预设文件大小，如果否，则将该文件夹确定为目标相同集群中包含小于第一预设文件大小的文件。

在实际应用中，针对某一文件夹，判断其是否为包含小于第一预设文件文件的文件夹，可以对该文件夹进行遍历，依次判断每一文件的大小是否不小于第一预设文件大小，如果判断出某一文件的大小比第一预设文件大小小，则将该文件夹确定为目标相同集群中包含小于第一预设文件大小的文件；如果对该文件夹遍历完成后，没有文件比第一预设文件大小小，则不将该文件夹确定为目标系统集群中包含小于第一预设文件大小的文件夹。

假设确定的文件夹为A，则确定文件夹A中小于第一预设文件大小的文件，具体的，确定小于第一预设文件大小的文件为现有技术，本发明在此不对其进行赘述。

假设所确定出的文件分别为：文件1、文件2、文件3……文件n。

则将文件文件1、文件2、文件3……文件n进行合并，合并完成后，将文件1、文件2、文件3……文件n删除。

具体的，在实际应用中，可以利用文件合并工具，将文件进行合并。也可以利用COPY命令将文件进行合并，例如：COPY/B 1.txt+2.txt 3.txt,，即利用COPY命令将文本文件1和文本文件2合并为文本文件3。

在实际应用中，将所确定的文件进行合并，可以通过MapReduce技术，将所确定的文件进行合并。

其中，MapReduce是一种编程模型，用于大规模数据集的并行运算；通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的返回它所完成的工作和最新的状态。如果一个节点保持沉默超过一个预设的时间间隔，主节点记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突；其中，原子操作指不会被线程调度机制打断的操作。

具体的，获得文件夹A的总大小，将文件夹A的总大小与配置的合并后的文件大小通过除法计算，获得reduce数量，将该reduce数量配置与MapReduce任务中，通过MapReduce，按照reduce数量对文件进行合并。此时合并后的文件数量必不超过reduce数量，合并后的文件大小也必然比配置的合并后的文件大小小。

在实际应用中，将所确定的文件进行合并，可以按照第二预设文件大小，将所确定的文件进行合并。

具体的，在实际应用中，Hadoop分布式文件系统的块文件大小通常为64MB或128MB，为了提高系统效率，可以将第二预设文件大小设置为64MB或128MB，使得合并后的文件大小恰好对应Hadoop分布式文件系统的块文件大小。当以块为单位进行读写时，合并后的一个文件即为一块，可以提高系统的读写速度。

在实际应用中，将所确定的文件进行合并，可以将所确定的文件中文件类型相同的文件合并为与所述文件类型相同的文件。

示例性的，假设所确定的文件分别为1.txt、2.jpg、3.mp3、4.txt、5.jpg和6.mp3，则可以将所确定的文件中的1.txt和4.txt合并为一个扩展名为“.txt”的文件，将所确定的文件中的2.jpg和5.jpg合并为一个扩展名为“.jpg”的文件，将所确定的文件中的3.mp3和6.mp3合并为一个扩展名为“.mp3”的文件。保证了合并前的文件与合并后的文件的文件格式相同，不会影响系统对文件处理的结果。

需要说明的是，上述以文件夹A以及合并文件夹A中的文件为例进行说明，仅为本发明的一具体实例，并不构成对本发明的限定。

应用本发明图1所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。

图2为本发明实施例提供的文件合并方法的第二种流程示意图，本发明图2所示实施例在图1所示实施例的基础上，增加S105：将合并后的文件存储在原文件夹中。

在实际应用中，为了不对原有程序或脚本进行修改，保持原有调用关系不变，可以将合并后的文件存储在原文件夹中。

以文件夹A为例，在将文件夹A中的文件x和文件y合并为文件z之后，将文件z存储在文件夹A中，即文件x和文件y位于的原文件夹中。

需要说明的是，上述以文件夹A为例进行说明，仅为本发明的一具体实例，并不构成对本发明的限定。

应用本发明图2所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。并将合并后的文件存储在原文件夹中，无需对原有程序或脚本进行修改，不会影响原有程序或脚本。

图3为本发明实施例提供的文件合并方法的第三种流程示意图，本发明图3所示实施例在图1所示实施例的基础上，增加S106：将合并后的文件存储在指定文件夹中。

在实际应用中，通常情况下，在文件进行处理时，会从当前文件夹中调取文件，或者从指定的文件夹中调取文件。为了不对原有程序或脚本进行修改，保持原有调用关系不变，可以将合并后的文件存储在指定文件夹中。

以合并文件夹A中的文件为例。

假设指定文件夹为文件夹B，则在将文件夹A中的文件x和文件y合并为文件z之后，将文件z存储在文件夹B中。

需要说明的是，上述以合并文件夹A中的文件、将合并后的文件存储在文件夹B中为例进行说明，仅为本发明的一具体实例，并不构成对本发明的限定。

应用本发明图3所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。并将合并后的文件存储在指定文件夹中，无需对原有程序或脚本进行修改，不会影响原有程序或脚本。

与上述的方法实施例相对应，本发明实施例还提供一种文件合并装置。

图4为本发明实施例提供的文件合并装置的第一种结构示意图，可以包括：第一确定模块201、第二确定模块202、合并模块203和删除模块204，其中，

第一确定模块201，用于确定目标系统集群中包含小于第一预设文件大小的文件夹；

在实际应用中，目标系统集群可以为HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)集群。

第二确定模块202，用于确定第一确定模块201确定的文件夹中小于所述第一预设文件大小的文件；

合并模块203，用于将第二确定模块202确定的文件进行合并；

本发明实施例所示的合并模块203，具体可以用于：

通过MapReduce技术，将第二确定模块202确定的文件进行合并。

本发明实施例所示的合并模块203，具体可以用于：

按照第二预设文件大小，将第二确定模块202确定的文件进行合并。

本发明实施例所示的合并模块203，具体可以用于：

将第二确定模块202确定的文件中文件类型相同的文件合并为与所述文件类型相同的文件。

删除模块204，用于删除第二确定模块202确定的文件。

应用本发明图4所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。

图5为本发明实施例提供的文件合并装置的第二种结构示意图，本发明图5所示实施例在图4所示实施例的基础上增加：存储模块205，其中，

存储模块205，用于将合并后的文件存储在原文件夹或指定文件夹中。

应用本发明图5所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。并将合并后的文件存储在原文件夹或指定文件夹中，无需对原有程序或脚本进行修改，不会影响原有程序或脚本。

图6为本发明实施例提供的一种电子设备的结构示意图，该电子设备可以包括：壳体301、处理器302、存储器303、电路板304和电源电路305，其中，电路板304安置在壳体301围成的空间内部，处理器302和存储器303设置在电路板304上；电源电路305，用于为电子设备的各个电路或器件供电；存储器303用于存储可执行程序代码；处理器302通过读取存储器303中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类电子设备包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类电子设备包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的移动电子装置。

应用本发明图6所示实施例，将小文件进行合并，并删除小文件，通常情况下，合并后的文件占用的存储空间比合并前的文件所占用的存储空间小，节省了存储空间的占用；另外使得系统中不存在小文件，无需使用特殊的har指令进行文件访问，进而无需对脚本代码进行修改，避免了额外系统资源的占用，也无需利用Sequence Files对文件进行处理，不会影响文件处理结果，避免了影响文件处理结果的发生。

另外，本发明实施例还提供了一种存储介质，用于存储应用程序，所述应用程序用于执行本发明实施例所提供的文件合并方法；其中，本发明实施例所提供的文件合并方法，可以包括：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

其中，所述将所确定的文件进行合并，包括：

通过MapReduce技术，将所确定的文件进行合并。

其中，所述将所确定的文件进行合并，包括：

按照第二预设文件大小，将所确定的文件进行合并。

其中，所述将所确定的文件进行合并，包括：

其中，所述方法还包括：

将合并后的文件存储在原文件夹中；

或将合并后的文件存储在指定文件夹中。

另外，本发明实施例还提供了一种应用程序，用于执行本发明实施例所提供的文件合并方法；其中，本发明实施例所提供的文件合并方法，可以包括：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

其中，所述将所确定的文件进行合并，包括：

通过MapReduce技术，将所确定的文件进行合并。

其中，所述将所确定的文件进行合并，包括：

按照第二预设文件大小，将所确定的文件进行合并。

其中，所述将所确定的文件进行合并，包括：

其中，所述方法还包括：

将合并后的文件存储在原文件夹中；

或将合并后的文件存储在指定文件夹中。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文件合并方法，其特征在于，包括：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。

2.根据权利要求1所述的方法，其特征在于，所述将所确定的文件进行合并，包括：

通过MapReduce技术，将所确定的文件进行合并。

3.根据权利要求1所述的方法，其特征在于，所述将所确定的文件进行合并，包括：

按照第二预设文件大小，将所确定的文件进行合并。

4.根据权利要求1所述的方法，其特征在于，所述将所确定的文件进行合并，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

将合并后的文件存储在原文件夹中；

或将合并后的文件存储在指定文件夹中。

6.一种文件合并装置，其特征在于，包括：第一确定模块、第二确定模块、合并模块和删除模块，其中，

所述删除模块，用于删除所述第二确定模块确定的文件。

7.根据权利要求6所述的装置，其特征在于，所述合并模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述合并模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述合并模块，具体用于：

10.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

确定目标系统集群中包含小于第一预设文件大小的文件夹；

确定所确定的文件夹中小于所述第一预设文件大小的文件；

将所确定的文件进行合并；

删除所确定的文件。