CN104731886B

CN104731886B - 一种海量小文件的处理方法及系统

Info

Publication number: CN104731886B
Application number: CN201510108811.8A
Authority: CN
Inventors: 莫德寿; 张哲�; 雷喜青; 陈意
Original assignee: Shenzhen Is Used In Conjunction Science And Technology Ltd
Current assignee: Shenzhen Is Used In Conjunction Science And Technology Ltd
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2018-11-20
Anticipated expiration: 2035-03-12
Also published as: CN104731886A

Abstract

本发明适用于数据处理技术领域，提供了一种海量小文件的处理方法及系统，所述方法包括：在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中；在检测到文件存储时，判断待存储的文件的大小是否小于预设值；若是，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息。通过本发明，可有效提高海量小文件存储以及检索的效率。

Description

一种海量小文件的处理方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种海量小文件的处理方法及系统。

背景技术

随着互联网、物联网、云计算、大数据等技术的发展，用户数据呈现爆炸式增长，其中小文件数量达到数千万乃至数亿的规模，并且逐年增长，而且这些小文件和大文件通常是混合地存储在一起，极大的影响了文件存储以及检索的效率。

目前，针对文件的存储与检索，主要使用基于传统磁盘之上建立的本地文件系统、分布式文件系统、对象存储系统等来实现。然而，所述本地文件系统、分布式文件系统和对象存储系统等磁盘文件系统，主要是针对大文件的存储与检索而设计的，当用来处理海量小文件时，在存储和检索效率方面会大幅降低，甚至无法正常进行。

发明内容

鉴于此，本发明实施例提供一种海量小文件的处理方法及系统，以提高海量小文件存储以及检索的效率。

本发明实施例是这样实现的，一种海量小文件的处理方法，所述方法包括：

在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中；

在检测到文件存储时，判断待存储的文件的大小是否小于预设值；

若是，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息。

本发明实施例的另一目的在于提供一种海量小文件的处理系统，所述系统包括：

缓存单元，用于在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中；

第一判断单元，用于在检测到文件存储时，判断待存储的文件的大小是否小于预设值；

合并单元，用于在第一判断单元判断结果为是时，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例通过将小文件合并成大文件进行存储，把大量的小文件数据变成大文件数据，减少了文件数量，从而减少了元数据服务中的元数据数量，可有效提高文件检索以及查询的效率。而且，采用小文件合并存储机制后，小文件的元数据和数据可以一并连续存储在大文件中，从而可大大增强单个小文件内部的数据局部性。另外，采用小文件合并存储机制后，I/O访问流程也将发生极大变化，很多小文件共享一个大文件，使得open操作可以转换成开销较小的seek操作，根据索引定位到大文件内部相应位置即可，从而有效节省系统开销，具有较强的易用性和实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的海量小文件处理方法的实现流程图；

图2是本发明实施例一提供的合并的大文件内部结构的示意图；

图3是本发明实施例二提供的海量小文件处理系统的组成结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明实施例一提供的海量小文件处理方法的实现流程，该方法过程详述如下：

在步骤S101中，在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中。

在本发明实施例中，所述小文件是指文件大小小于预设值(例如1MB)的文件。需要说明的是，用户可以根据实际情况调整所述预设值。

其中，所述大文件头部结构信息包括CheckSum(4字节)校验总和、VolName(256字节)名称、VolSize(4字节)总大小、VolId(4字节)唯一ID号以及LdateTime(4字节)最后写时间等。所述小文件存储结构信息包括小文件头部结构信息以及小文件数据存储区信息，所述小文件存储结构信息包括CheckSum(4字节)校验总和、FileName(256字节)名称、FileSize(4字节)总大小、FileAttr(4字节)文件元数据、LdateTime(4字节)最后写时间以及Flag(1字节)文件有效性标记等；所述小文件数据存储区用于存储小文件二进制数据。具体如图2所示。

另外，本发明实施例将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中，可有效提高合并小文件的操作效率。

在步骤S102中，在检测到文件存储时，判断待存储的文件的大小是否小于预设值；若判断结果为“是”，则执行步骤S103，否则执行步骤S104。

在步骤S103中，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息。

具体的可以是，将所述待存储的文件追加写到某个大文件的后面，并更新所述内存中的链表信息以及该大文件的头部结构信息，具体如图2所示。

在本发明实施例中，当所述待存储的文件的小于预设值时，说明该待存储的文件为小文件，则对该待存储的文件进行合并操作后再存储。

进一步的，在所述待存储的文件的大小小于预设值时，继续判断所述待存储的文件是否为新产生的文件，若是，将所述待存储的文件合并成大文件进行存储。

进一步的，本发明实施例在更新所述内存中的链表信息之后，还包括：

在检测到对所述待存储的文件的修改操作时，将所述待存储的文件的有效性标记设置为修改状态；

在检测到对所述待存储的文件的删除操作时，将所述待存储的文件的有效性标记设置为删除状态。

本发明实施例对小文件的修改和删除操作，通过大文件中的小文件头部结构信息中的文件有效性标记来实现。由于对小文件的修改和删除操作，会造成大文件内部的碎片空洞，因此对修改操作，采用文件有效性标记和数据追加写的方式来实现；对删除操作，采用文件有效性标记的方式来实现，并定时对大文件的碎片空洞进行处理，以保证大文件的数据局部性要求和提高存储效率。

作为本发明的一较佳实施例，本发明实施例在更新所述内存中的链表信息之后，还包括：

在接收到对所述待存储文件的检索请求时，根据所述待存储文件的位置偏移值读取所述待存储文件。

具体的可以是，在接收到对所述待存储文件的检索请求时，在所述内存的链表信息中查找所述待存储文件所在的链表节点，根据所述链表节点定位所述待存储文件所处的合并大文件的位置偏移值，根据所述位置偏移值定位到所述待存储文件的存储位置，并读取所述待存储文件。

通过本发明可以有效提高小文件存储和检索的效率。

在步骤S104中，通过操作系统的文件系统处理所述待存储的文件。

在本实施例中，当所述待存储文件不小于所述预设值时，判定所述待存储文件为大文件，对所述待存储文件不做任何处理，直接通过操作系统的文件系统处理所述待存储的文件。

需要说明的是，本发明实施例所提供的功能可以基于操作系统中文件系统的过滤驱动模块运行，接管操作系统的READ、WRITE、SEEK等文件操作函数。也可以作为一个小文件功能判断模块运行，提供API由其它软件调用，其它软件通过API提供要处理的小文件信息。

本发明实施例通过把小文件合并成大文件进行存储和检索，可充分发挥现有技术针对大文件管理而设计的各种策略，通过采用减少数据访问次数和减少数据访问时间的优化思路来实现一种海量小文件的存储与检索方法。通过减少元数据操作、增加数据局部性、简化I/O访问流程、并在合并的大文件中加上文件有效性标记等方法提高小文件的存储效率和访问效率，从而达到优化海量小文件存储与检索的效果。本发明实施例适用于包括本地文件系统、分布式文件系统和对象存储系统，不受特定系统的限制，与基于不同文件系统自身的特性出发进行局部优化的方法相比，本发明实施例更加简单、高效，具有有较强的易用性和实用性。

实施例二：

图3示出了本发明实施例二提供的海量小文件处理系统的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该海量小文件处理系统可以是内置于终端设备(如个人计算机、笔记本电脑等)中的软件单元、硬件单元或者软硬件相结合的单元，或者作为独立的挂件集成到终端设备或者终端设备的应用系统中。

该海量小文件处理系统包括：

缓存单元31，用于在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中；

判断单元32，用于在检测到文件存储时，判断待存储的文件的大小是否小于预设值；

合并单元33，用于在判断单元32判断结果为是时，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息。

进一步的，所述合并单元33具体用于：

将所述待存储的文件追加写到某个大文件的后面，并更新所述内存中的链表信息以及该大文件的头部结构信息。

进一步的，所述系统还包括：

修改单元34，用于在检测到对所述待存储的文件的修改操作时，将所述待存储的文件的有效性标记设置为修改状态；

删除单元35，用于在检测到对所述待存储的文件的删除操作时，将所述待存储的文件的有效性标记设置为删除状态；

检索单元36，用于在更新所述内存中的链表信息之后，若接收到对所述待存储文件的检索请求时，根据所述待存储文件的位置偏移值读取所述待存储文件。

进一步的，所述检索单元36具体用于：

在更新所述内存中的链表信息之后，若接收到对所述待存储文件的检索请求时，在所述内存的链表信息中查找所述待存储文件所在的链表节点，根据所述链表节点定位所述待存储文件所处的合并大文件的位置偏移值，根据所述位置偏移值定位到所述待存储文件的存储位置，并读取所述待存储文件；

所述合并单元33具体用于，在所述待存储的文件的大小小于预设值时，判断所述待存储的文件是否为新产生的文件，若是，将所述待存储的文件合并成大文件进行存储。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元、模块既可以采用硬件的形式实现，也可以采用软件功能单元、模块的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

综上所述，本发明实施例提供的海量小文件处理方法及系统可以获得如下效果：

1)减少了大量元数据，把大量的小文件数据变成大文件数据，减少了文件数量，从而减少了元数据数量，提高了元数据的检索和查询效率，降低了文件读写的I/O操作延时，节省了大量的数据传输时间。由于小文件的元数据开销所占比重大，通过大幅减少元数据，可显著提升系统性能。合并后的大文件存储在磁盘文件系统之上，可大大降低磁盘文件系统在元数据和I/O方面的压力，改善存储性能。小文件的元数据和数据一同存储在大文件中，并形成索引文件，访问时通过索引进行定位。索引文件采用预加载到内存的策略，可以实现随机读写小文件只需要一次I/O操作的效果。

2)增加数据局部性，提高了存储效率。采用小文件合并存储机制后，小文件的元数据和数据由于是一同连续存储在大文件中，增强了单个小文件内部的数据局部性。小文件合并过程中，可以利用文件之间的空间局部性、时间局部性以及关联，尽量将可能连续访问的小文件在大文件中进行连续存储，增强了小文件之间的数据局部性，降低了磁盘上随机I/O的比率，由于转换成了顺序I/O，能够有效提高I/O读写性能。另外，小文件单独存储会形成空间存储碎片，而合并存储后存储碎片将大大降低，将极大提高海量小文件的存储效率。

3)简化了I/O访问流程。采用小文件合并存储后，I/O访问流程发生了极大变化，磁盘文件系统读写一个小文件，最大的系统消耗在open系统调用，需要进行路径查找，并将路径名进行解析，转换成对应文件在内核中进行内部表示。这个过程非常占用系统开销，尤其是在层次目录很多的情况下的文件。而经过合并后，很多小文件共享一个大文件，open操作转换成了开销小很多的seek操作，根据索引定位到大文件内部相应位置即可，从而有效节省系统开销。而且，本发明实施例在实现上述过程中，不需要增加额外的硬件，可有效降低成本，具有较强的易用性和实用性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元、模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元、模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种海量小文件的处理方法，其特征在于，所述方法包括：

在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中，所述小文件存储结构信息包括小文件头部结构信息以及小文件数据存储区信息；

若是，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息；

若否，通过操作系统的文件系统处理所述待存储的文件；

所述将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息具体为：

将所述待存储的文件追加写到某个大文件的后面，并更新所述内存中的链表信息以及该大文件的头部结构信息；

在更新所述内存中的链表信息之后，所述方法还包括：

2.如权利要求1所述的方法，其特征在于，在更新所述内存中的链表信息之后，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述在接收到对所述待存储文件的检索请求时，根据所述待存储文件的位置偏移值读取所述待存储文件包括：

在接收到对所述待存储文件的检索请求时，在所述内存的链表信息中查找所述待存储文件所在的链表节点，根据所述链表节点定位所述待存储文件所处的合并大文件的位置偏移值，根据所述位置偏移值定位到所述待存储文件的存储位置，并读取所述待存储文件。

4.如权利要求1至3任一项所述的方法，其特征在于，在所述待存储的文件的大小小于预设值时，将所述待存储的文件合并成大文件进行存储具体包括：

在所述待存储的文件的大小小于预设值时，判断所述待存储的文件是否为新产生的文件，若是，将所述待存储的文件合并成大文件进行存储。

5.一种海量小文件的处理系统，其特征在于，所述系统包括：

缓存单元，用于在文件处理功能启动后，将大文件头部结构信息以及大文件数据存储区内的小文件存储结构信息以链表的方式缓存到内存中，所述小文件存储结构信息包括小文件头部结构信息以及小文件数据存储区信息；

判断单元，用于在检测到文件存储时，判断待存储的文件的大小是否小于预设值；

合并单元，用于在判断单元判断结果为是时，将所述待存储的文件合并成大文件进行存储，并更新所述内存中的链表信息，在判断单元判断结果为否时，通过操作系统的文件系统处理所述待存储的文件；

所述合并单元具体用于：

所述系统还包括：

修改单元，用于在检测到对所述待存储的文件的修改操作时，将所述待存储的文件的有效性标记设置为修改状态；

删除单元，用于在检测到对所述待存储的文件的删除操作时，将所述待存储的文件的有效性标记设置为删除状态。

6.如权利要求5所述的系统，其特征在于，所述系统还包括：

检索单元，用于在更新所述内存中的链表信息之后，若接收到对所述待存储文件的检索请求时，根据所述待存储文件的位置偏移值读取所述待存储文件。

7.如权利要求6所述的系统，其特征在于，所述检索单元具体用于：

所述合并单元具体用于，在所述待存储的文件的大小小于预设值时，判断所述待存储的文件是否为新产生的文件，若是，将所述待存储的文件合并成大文件进行存储。