CN107341227A

CN107341227A - 文件处理方法、服务器及计算机可读存储介质

Info

Publication number: CN107341227A
Application number: CN201710528557.6A
Authority: CN
Inventors: 王绍节; 龙春; 万巍; 赵静; 宋丹劼
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2017-07-01
Filing date: 2017-07-01
Publication date: 2017-11-10
Anticipated expiration: 2037-07-01
Also published as: CN107341227B

Abstract

本发明提供一种文件处理方法、服务器及计算机可读存储介质，所述文件处理方法包括：获取待转移文件；判断当前预设文件的大小是否超过预定阈值；当所述当前预设文件的大小未超过预定阈值时，将所述待转移文件写入所述当前预设文件的尾部。根据本发明提供的文件处理方法、服务器及计算机可读存储介质，在获取到待转移文件时，首先判断当前用于存储待转移文件的预设文件的大小是否超过预定阈值，在其大小未超过预定阈值时，不会直接另存该待转移文件，而是将其写入当前的预设文件尾部，作为一种合并存储操作。本发明可以有效减少小文件的数量，以达到节约存储空间的效果。

Description

文件处理方法、服务器及计算机可读存储介质

技术领域

本发明涉及数据存储领域，具体涉及一种文件处理方法、服务器及计算机可读存储介质。

背景技术

目前，一种通过计算机网络将多个节点相连，进行数据存储的文件系统，即分布式文件系统(Distributed File System，DFS)，有效的解决了文件系统管理的物理存储资源受限于本地节点存储空间大小的问题。采用分布式的文件系统管理方式，DFS可以极大程度的解决存储空间的扩展问题。Hadoop Distributed File System(分布式文件系统，简称HDFS)是一种能够运行在通用硬件设备上的分布式文件系统。它和已有的分布式文件系统有很多相似之处。和其他的分布式文件系统相比，HDFS是一个高容错系统，适合部署在廉价的硬件设备上。同时，HDFS能提供高吞吐量的数据访问能力，非常适合大规模数据集上的应用。

类似于普通的Unix和Linux文件系统，HDFS允许对集群上的文件或目录进行一些常规的操作，并提供类似Unix和Linux文件系统的操作命令，例如：查看文件、移动文件、复制文件、删除文件、创建目录等。此外，由于HDFS是分布式文件系统，采用集群的方式存储，因此，还提供了上传、下载等文件操作。

实时大数据分析框架，例如Storm、Spark Streaming等，可以作为实时数据源将实时的网络安全数据写入HDFS的功能。在一个示例性的应用场景中：实时数据源不断将处理完成的网络安全数据写入HDFS进行存储。由于管理员需要实时掌控最新的网络安全状况，因此需要利用检索引擎不断地在存储的网络安全数据中进行检索，并及时的反馈检索结果。在此应用场景中，当数据检索引擎正在对HDFS中的某个文件的数据进行检索时，如果实时数据源仍然不断对该文件进行写入操作，将导致文件读写冲突，从而引发错误问题。

具体如图1所示，实时数据源负责将分析处理的网络安全数据结果写入HDFS文件s_n(其中n＝1,2,3,…)。数据检索引擎负责对HDFS中的文件s_n按需进行检索。当实时数据源打开s_n并不断向其中写入安全数据的过程中，如果数据检索引擎对s_n文件发起检索请求，将引发检索错误。

部分实时数据源，例如Storm，可以提供向HDFS文件写入网络安全数据，并定期将文件进行转移的功能，可以解决上述写入与检索冲突问题。通过定期转移写入HDFS中的文件，可以将写入与检索分散到不同文件上进行处理，有效解决由于文件同时被执行不同的访问操作而引发的冲突问题。但同时又将引起新的问题：对于网络空间安全态势感知这样的对数据的实时性要求非常高的应用场景，需要尽快将分析的结果数据实时展示出来。如图2所示，实时数据源频繁的将生成的文件s_n，转移到目标文件目录D，并命名为d_n(其中，n＝1,2,3,…)。经过长时间的定期转移，目录D将积累大量小文件。由此，大量的小文件产生大量存储空间碎片，进而造成存储空间浪费。此外，基于大量的小文件进行数据检索，将引发频繁的文件打开、关闭等操作。频繁的打开、关闭操作，势必产生额外的时间开销，影响检索速度，降低检索性能。随着文件数量的不断积累，小文件的打开、关闭操作所带来的延时将成正比增长，严重影响数据检索效率。

发明内容

本发明要解决的是现有的文件转移操作中生成存储空间碎片而造成存储空间浪费的问题。

有鉴于此，本发明提供一种基于文件阈值的转移追加处理方法，包括：

获取待转移文件；

判断当前预设文件的大小是否超过预定阈值；

当所述当前预设文件的大小未超过预定阈值时，将所述待转移文件以流的形式追加至所述当前预设文件的尾部。

优选地，当所述当前预设文件的大小超过预定阈值时，存储所述待转移文件。

所述预设文件大小的预定阈值，需要根据所属应用领域的不同，采取一系列性能指标进行评估确定，以保证在转移追加后的文件上的操作性能达到最优。例如，对于数据检索领域，可以根据文件大小对数据检索性能的影响，确定最终的文件预定阈值。以期在保证文件大小不低于预定值的同时，获取最优的数据检索性能。

优选地，在所述存储所述待转移文件之后，将存储的待转移文件设置为下一预设文件。

优选地，所述存储所述待转移文件的目录与所述当前预设文件所处的目录为同一目录。

优选地，所述获取待转移文件，包括：

检测所述待转移文件从其创建到当前的持续时间是否达到转移文件预定的时间间隔；

所述预定的文件转移时间间隔，需要根据所属应用领域不同，采取一系列性能指标进行确定，以保证在转移追加后的文件上的操作性能达到最优。例如，对于数据检索方面，应确保在所规定的文件转移追加时间间隔内，在转移追加后的文件中进行数据检索的性能优于单纯的文件转移策略的性能。

当持续时间达到所述时间间隔时，获取所述待转移文件。

优选地，在所述获取待转移文件之后、在所述判断当前预设文件的大小是否超过预定阈值之前，还包括：

将所述待转移文件存储到所述当前预设文件所处的目录中。

优选地，在所述将所述待转移文件写入所述当前预设文件的尾部之后，还包括：删除被存储的所述待转移文件。

优选地，所述待转移文件是预定数据源向目标文件写入数据时生成的文件，所述目标文件与所述当前预设文件处在不同的目录中。

另一方面，本方法还提供一种文件处理服务器，包括：至少一个处理器以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述文件处理方法。

另一方面，本方法还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文件处理方法的步骤。

根据本发明实施例提供的文件处理方法、服务器及计算机可读存储介质，在获取到待转移文件时，首先判断当前用于存储待转移文件的预设文件的大小是否超过预定阈值，在其大小未超过预定阈值时，不会直接另存该待转移文件，而是将其写入当前的预设文件尾部，作为一种合并存储操作。通过实验验证，该方法可以有效减少小文件的数量，以达到节约存储空间的效果。同时，合并后的文件有效的减少文件数量，数据检索过程中，极大程度的减少文件打开、关闭操作，降低时间消耗，提高检索性能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的实时数据写入与检索引发读写冲突的示意图；

图2为现有技术中的文件转移方式示意图；

图3为本发明实施例提供的文件处理方法的流程图；

图4为根据本发明提供的文件处理方法进行文件转移的示意图；

图5是固定文件大小情况下进行实验得到的文件数量变化示意图；

图6是固定文件转移时间间隔情况下进行实验得到的文件数量变化示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种文件处理方法，如图3所示，该方法包括如下步骤：

S1，获取待转移文件，待转移文件可以是某个数据源向目标文件写入数据时生成的文件。结合图4所示，例如实时数据源不断向HDFS文件s_n写入实时分析结果。当达到设定的转移时间阈值时，s_n需要被转移到目标文件目录D。

S2，判断当前预设文件的大小是否超过预定阈值，若当前预设文件的大小未超过预定阈值时，执行步骤S3，否则执行步骤S4。可以在目标文件目录D中设置目标文件d_n(其中，n＝1,2,3,…，最初时可以只设有一个目标文件d₁，且d₁为空)。此时当有新的文件s_n到达时，首先判断d_n的大小，是否达到预定大小，如果未到达预定大小，则执行步骤S3，否则执行步骤S4。

S3，将待转移文件写入当前预设文件的尾部，也即将s_n追加到d_n文件尾部。这样当数据检索引擎发出检索时，会在转移合并后的大文件d_n上进行检索查询操作。同时，合并产生的文件均达到预设定的文件大小(当前目标文件d_n除外)，可以有效减少存储空间碎片，提升存储空间资源利用率。

在本实施例中，待转移文件是预定数据源向目标文件写入数据时生成的文件，该文件与当前预设文件处在不同的目录中，这样设置使合并存储的文件与被数据源写入文件的原文件相互隔离，便于文件管理。在其他实施例中，该文件与当前预设文件也可以处在同一目录中。

根据本发明实施例提供的文件处理方法，在获取到待转移文件时，首先判断当前用于存储待转移文件的预设文件的大小是否超过预定阈值，在其大小未超过预定阈值时，不会直接另存该待转移文件，而是将其写入当前的预设文件尾部，作为一种合并存储操作。通过实验验证，该方法可以有效减少小文件的数量，以达到节约存储空间的效果。文件数量的降低，可以有效减少因数据检索，而产生的文件打开关闭操作，降低时间消耗，提高检索性能。

S4，存储待转移文件，或称为另存储待转移文件。也即当d_n达到预定大小，则另存s_n，此时目录中存在之前已达到预定大小的d_n和当前的s_n。在本实施例中，存储待转移文件的目录与当前预设文件所处的目录为同一目录，也即s_n将与d_n同被存储在目录D中，这样更加便于后续检索引擎查找文件。在其他实施例中，这些文件也可以存储在不同的目录中。

S5，将存储的待转移文件设置为下一预设文件，具体地，可以将s_n重命名为d_n+1，并将d_n+1替代之前已达到预定大小的d_n设置为新的目标文件，供后续文件的转移合并操作。根据上述步骤S4-S5的操作，可以保证每个预设文件均达到预定的文件大小，以进一步节约存储空间。

作为一个优选的实施方式，上述步骤S1可以具体包括如下步骤：

S11，检测待转移文件从其创建到当前的持续时间是否达到移动文件预定的时间间隔，当持续时间达到时间间隔时，执行步骤S12，否则持续检测。

S12，获取待转移文件。

上述优选方案通过文件存在的时间和预定的转移时间间隔来确保在满足移动条件之后，才进行后续文件转移、合并或存储的操作，由此来节约系统资源、提高文件处理效率。

更进一步地，还可以在移动之前(步骤S2之前)，对上述当前的持续时间和移动文件预定的时间间隔进行二次判断，再一次确保满足移动条件之后，才进行后续移动合并操作。

为了避免丢失文件，还可以在步骤S1和步骤S3之间进行如下处理：

S’2，将待转移文件存储到当前预设文件所处的目录中。

并在步骤S3之后进行如下处理：

S’3，删除被存储的待转移文件。

上述优选方案在获取到待转移文件时，先对文件进行缓存处理，由此来避免丢失文件，然后在合并存储该文件后，删除之前缓存的文件，由此来节约存储空间。

下面结合实验数据来验证本发明提供的技术方案的效果。针对本发明提出的实时数据存储转移合并技术，采用Storm作为实时数据输入源，使用HDFS进行数据存储。其中HDFS由6个存储节点组成，各节点均采用4核，2.2GHz的CPU，此外，5个节点具备32GB内存，1个节点具备16GB内存。本实验分别对定期转移时间间隔在1、2、5、10、20、30分钟，以及规定合并文件大小为32、64、128、256、512、1024MB的情况下，对定期转移以及本发明提出的定期转移合并两种处理方式进行对比分析。主要针对最终形成的文件数量进行详细对比。实验的详细参数如表1所示。

表1实验参数信息

本实验针对定期转移与定期转移合并两种处理方式，分别在不同的转移时间间隔t以及不同的合并文件大小s条件下，产生的文件数量n进行了对比实验。实验结果显示经过定期转移合并产生的文件数量n将极大程度的得到降低。

图5显示了在文件大小s设置为512MB，不同转移时间间隔t的情况下，两种方法产生的文件数量n的变化。从图中可以明显的看出随着转移时间间隔t的逐渐增大，定期转移合并文件方法产生的文件数量缓慢增长。这是由于定期转移合并文件受设置的文件大小s的影响，不受转移时间间隔的限制。此外，定期转移产生的文件数量n随着转移时间间隔t的增长而急剧下降，并逐渐趋近于定期转移合并产生的文件数量。这是由于随着定期转移的时间间隔的增长，产生的文件不再频繁的转移。从图5中可以明显看出，定期转移合并产生的文件数量始终明显少于定期转移产生的文件数量。

图6显示了固定转移时间间隔t设置为5min，不同合并文件大小s的情况下定期转移与定期转移合并产生的文件数量n的变化。由于定期转移产生的文件数量主要受设置的时间间隔的影响，因此其产生的文件数量保持在一个较高的平稳数量值。定期转移合并产生的文件数量受设置的文件大小s影响，随着文件大小s设置的越大，其产生的文件数量越少，但相对于定期转移文件的方法，定期转移合并产生的文件数量要明显的少很多。

相应地，本发明实施例还提供了一种文件处理服务器，包括：至少一个处理器以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如图3所示的文件处理方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种文件处理方法，其特征在于，包括：

获取待转移文件；

判断当前预设文件的大小是否超过预定阈值；

当所述当前预设文件的大小未超过预定阈值时，将所述待转移文件写入所述当前预设文件的尾部。

2.根据权利要求1所述的方法，其特征在于，当所述当前预设文件的大小超过预定阈值时，存储所述待转移文件。

3.根据权利要求2所述的方法，其特征在于，在所述存储所述待转移文件之后，将存储的待转移文件设置为下一预设文件。

4.根据权利要求2或3所述的方法，其特征在于，所述存储所述待转移文件的目录与所述当前预设文件所处的目录为同一目录。

5.根据权利要求1所述的方法，其特征在于，所述获取待转移文件，包括：

检测所述待转移文件从其创建到当前的持续时间是否达到移动文件预定的时间间隔；

当持续时间达到所述时间间隔时，获取所述待转移文件。

6.根据权利要求1所述的方法，其特征在于，在所述获取待转移文件之后、在所述判断当前预设文件的大小是否超过预定阈值之前，还包括：

将所述待转移文件存储到所述当前预设文件所处的目录中。

7.根据权利要求6所述的方法，其特征在于，在所述将待转移文件写入所述当前预设文件的尾部之后，还包括：

删除被存储的所述待转移文件。

8.根据权利要求1-7中任一所述的方法，其特征在于，所述待转移文件是预定数据源向目标文件写入数据时生成的文件，所述目标文件与所述当前预设文件处在不同的目录中。

9.一种文件处理服务器，其特征在于，包括：至少一个处理器以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-8中任一项所述的文件处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述文件处理方法的步骤。