CN111913917A

CN111913917A - 一种文件处理方法、装置、设备和介质

Info

Publication number: CN111913917A
Application number: CN202010724886.XA
Authority: CN
Inventors: 张立志; 谢永恒; 万月亮
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-10

Abstract

本发明实施例公开了一种文件处理方法、装置、设备和介质。其中，该方法包括：通过Web写入接口查询缓存区域中是否存在目标存储数据；若是，则将文件生产者的待上传文件写入缓存区域的目标存储数据中；根据目标存储数据的当前所占容量值，确定目标存储数据中已缓存文件的存储方式。本发明实施例可以对海量小文件分配不同的存储方式，从而有效提高文件生产者生成的大数量文件的存储效率。

Description

一种文件处理方法、装置、设备和介质

技术领域

本发明实施例涉及一种海量小文件存储技术，尤其涉及一种文件处理方法、装置、设备和介质。

背景技术

海量小附件存储是业界难题，甚至有专门的名词，LOSF(Lots Of Small File)。通常我们认为大小在1MB以内的文件称为小附件，百万数量及以上称为海量附件，由此量化定义海量小文件。在互联网(尤其是移动互联网)、物联网、云计算以及大数据等高速发展的大背景下，数据呈现爆炸式地增长，海量小文件的应用在生活中已越来越常见，往往能够产生千万级、亿级甚至十亿、百亿级的海量小文件。目前对于海量小文件的存储方式主要是通过网页页面上生成的上传模块直接将海量的小文件上传至分布式集群中进行存储。

上述方案的缺陷在于：对于所有的且多数的小文件都是直接进行存储的，一旦文件数量偏大，则会给存储端带来较大负载，极大的降低了海量小文件的存储效率。

发明内容

本申请实施例提供一种文件处理方法、装置、设备和介质，可以对海量小文件分配不同的存储方式，从而有效提高文件生产者生成的多数文件的存储效率。

第一方面，本发明实施例提供了一种文件处理方法，包括：

通过Web写入接口查询缓存区域中是否存在目标存储数据；

若是，则将文件生产者的待上传文件写入所述缓存区域的目标存储数据中；

根据所述目标存储数据的当前所占容量值，确定所述目标存储数据中已缓存文件的存储方式。

可选的，将文件生产者的待上传文件写入所述缓存区域的目标存储数据中，包括：

遍历查询缓存区域的各存储数据的写入操作进程数；

若检测到写入操作进程数为第一数值，则确定当前存储数据为目标存储数据，并将文件生产者的待上传文件写入所述目标存储数据中；

若检测到所有的存储数据的写入操作进程数均为第二数值，则在所述缓存区域中创建一个新的存储数据作为目标存储数据，并将待上传文件写入所述目标存储数据中。

可选的，在通过Web写入接口查询缓存区域中是否存在目标存储数据之后，所述方法还包括：

若否，则新建一个新的存储数据作为目标存储数据，以存储文件生产者的待上传文件。

可选的，根据所述目标存储数据的当前所占容量值，确定所述目标存储数据中已缓存文件的存储方式，包括：

若检测到所述目标存储数据的当前所占容量值大于文件缓存阈值，则控制缓存区域将所述目标存储数据中的已缓存文件合并传输至分布式集群中进行存储，并返回所述目标存储数据中存储文件的存储路径；

若检测到所述目标存储数据的当前所占容量值小于文件存储阈值，则控制缓存区域将所述目标存储数据中的已缓存文件继续独立存储，并返回所述待上传文件的存储路径。

可选的，所述方法还包括：

若检测到所述目标存储数据的起始缓存时间戳和当前时刻的差值大于预设时长阈值，则控制缓存区域将所述目标存储数据中的已缓存文件合并传输至分布式集群中。

可选的，通过Web写入接口查询缓存区域中是否存在目标存储数据，包括：

向缓存区域发送数据查询请求；

根据所述缓存区域返回的查询结果，确定所述缓存区域中是否存在目标存储数据。

可选的，所述方法还包括：

通过Web查询接口从所述缓存区域中获取包含存储路径的待查询文件；

若根据所述存储路径从所述缓存区域中未查询到所述待查询文件，则通过Web查询接口从所述分布式集群中获取包含存储路径的待查询文件。

第二方面，本发明实施例提供了一种文件处理装置，包括：

数据查询模块，用于通过Web写入接口查询缓存区域中是否存在目标存储数据；

文件合并模块，用于若是，则将文件生产者的待上传文件写入所述缓存区域的目标存储数据中；

存储方式确定模块，用于根据所述目标存储数据的当前所占容量值，确定所述目标存储数据中已缓存文件的存储方式。

可选的，文件合并模块，具体用于：

遍历查询缓存区域的各存储数据的写入操作进程数；

可选的，还包括：

数据新建模块，用于若否，则新建一个新的存储数据作为目标存储数据，以存储文件生产者的待上传文件。

可选的，存储方式确定模块，具体用于：

可选的，还包括：

检测模块，用于若检测到所述目标存储数据的起始缓存时间戳和当前时刻的差值大于预设时长阈值，则控制缓存区域将所述目标存储数据中的已缓存文件合并传输至分布式集群中。

可选的，数据查询模块，具体用于：

向缓存区域发送数据查询请求；

可选的，还包括：

文件获取模块，用于通过Web查询接口从所述缓存区域中获取包含存储路径的待查询文件；

文件获取模块，还用于若根据所述存储路径从所述缓存区域中未查询到所述待查询文件，则通过Web查询接口从所述分布式集群中获取包含存储路径的待查询文件。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中的任一种所述的文件处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例中的任一种所述的文件处理方法。

本发明实施例通过Web写入接口查询缓存区域中是否存在目标存储数据；若是，则将文件生产者的待上传文件写入缓存区域的目标存储数据中；并根据目标存储数据的当前所占容量值，确定目标存储数据中已缓存文件的存储方式。本发明实施例可以对海量小文件分配不同的存储方式，从而有效提高文件生产者生成的多数文件的存储效率。

附图说明

图1是本发明实施例一中的文件处理方法的流程示意图；

图2是本发明实施例二中的文件处理方法的流程示意图；

图3是本发明实施例三中的文件处理装置的结构示意图；

图4是本发明实施例四中的电子设备的结构示意图；

图5是本发明实施例二中的文件存储和查询的简化示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的文件处理方法的流程示意图。本实施例可适用于对海量附件进行有效存储的情况。本实施例方法可由文件处理装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中；其中，电子设备优选为计算机，利用计算机设计开发得到Web应用程序来实现本申请的方法。可实现本申请任意实施例所述的文件处理方法。如图1所示，该方法具体包括如下：

S110、通过Web写入接口查询缓存区域中是否存在目标存储数据；若是，则执行S120；若否，则执行S130。

在本实施例中，采用SpringBoot框架实现Web(万维网)应用程序，并提供了两个自定义接口，即Web写入接口和Web查询接口，以及一个定时任务的查询功能；可以通过Web应用实现文件生产者上传文件，以及实现文件使用者有效的获取到待获取文件；其中，本实施例中所描述的文件可以包括图像，但不仅限于图像。小文件存储的底层框架使用hadoop的HDFS文件系统，hadoop可以通过添加服务器进行集群的横向扩展，具备高扩展性；同时hadoop的备份机制也使得hadoop集群具备高可靠性，不会因为一台或多台设备出现故障而导致数据丢失。

具体的，文件生产者为存储数据的程序，使用者可以通过该存储数据的程序实现文件的写入操作。文件使用者为展示数据的应用程序，使用者可以通过该应用程序获取到待查询文件；其中，文件使用者可以为移动设备上安装的APP(Application，应用程序)或者计算机设备上的浏览网页。缓存区域为小文件落地分布式(HDFS)集群前的缓存集群，例如缓存区域可以为redis集群(缓存数据库)，以实现小文件在redis集群中处理后再存储至分布式集群中，从而降低分布式集群的存储负载。

目标存储数据为缓存区域中存储小文件的集合，缓存区域中可以同时存在多个存储数据，可以通过多个存储数据对文件生产者上传的海量小文件进行无规则的划分存储；由于缓存区域中的存储数据会实时发生变化，待其传输后，缓存区域中则不存在该存储数据了；或者缓存数据的状态为使用中；为了提高文件生产者能够快速有效的将海量小文件写入缓存区域中，因此，在写入前，需要检测缓存区域中是否存在目标存储数据。

S120、将文件生产者的待上传文件写入缓存区域的目标存储数据中。

在本实施例中，Web应用通过Web写入接口将文件生产者的待上传文件写入目标存储数据中；其中，存入的待上传文件将以hash数据结构在redis(缓存区域)中存储；具体的，redis为具有嵌套结构的K-V数据库，其数据存储设计如下表所示。

其中，在一个K-V结构下，可以存在多个子K-V结构，即为对存储数据的嵌套划分；K表示存储数据的键；V表示存储数据的值。上表中，timestamp为该存储数据中第一个文件写入的时间戳，在同一个存储数据中，时间戳一定且不会发生变化；size为存储数据中存储的多个小文件的所占容量大小之和，比如本实施例中可以设置size的最大值为200M；count表示该存储数据的写入状态，0表示空闲，1表示占用；序列号_文件名称为待存储文件的命名。

S130、新建一个新的存储数据作为目标存储数据，以存储文件生产者的待上传文件。

在本实施例中，目标存储数据如上表中的K-V结构所示，创建好一个新的存储数据后，对待上传文件进行命名，并记录第一个文件写入的时间戳，记录存储数据的大小，在写入时，将count加1改为1，待写入完成后，将count减1改为0，以方便写一个文件的有效存储；其中，count在默认状态下的值为0。

S140、根据目标存储数据的当前所占容量值，确定目标存储数据中已缓存文件的存储方式。

在本实施例中，目标存储数据的所占容量值为该目标存储数据中所包含的所有已缓存文件的所占容量值之和；为了避免多数小文件积聚在缓存区域中导致缓存区域的处理效率降低的问题，本实施例通过给存储数据的所占容量值设置最大值约束，以确定每组存储数据中已缓存文件的存储方式；其中，存储方式为继续存储和转存两种；继续存储为已缓存文件已经存储至原存储数据中；转存为已缓存文件以一个整体存放的形式转存至分布式集群中。

图2是本发明实施例二中的文件处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化，并可与上述技术方案中任意可选方案组合。如图2所示，该方法包括：

S210、通过Web写入接口查询缓存区域中是否存在目标存储数据；若是，则执行S220；若否，则执行S230。

S220、将文件生产者的待上传文件写入缓存区域的目标存储数据中。

S230、新建一个新的存储数据作为目标存储数据，以存储文件生产者的待上传文件。

S240、检测目标存储数据的当前所占容量值是否大于文件缓存阈值；若是，则执行S250；若否，则执行S260。

由于传统文件存储的方式主要是将待上传文件直接传输至分布式集群中进行存储，为了降低分布式集群的存储负载，本实施例引入了缓存区域，并设置了缓存区域的文件缓存阈值，有效避免缓存区域过多被占用，导致待上传文件难以写入的问题。

S250、控制缓存区域将目标存储数据中的已缓存文件合并传输至分布式集群中进行存储，并返回目标存储数据中存储文件的存储路径。

由于小文件的所占容量值一般以KB为单位的，因此，本实施例中的文件缓存阈值可以设置为200M，能够尽量多的将多数小文件存储在一个存储数据中，有利于文件的统一管理。

HDFS支持的文件存储格式有text、sequenceFile和MapFile。由于MapFile可以将多个文件进行合并存储，通过观察其目录结构可以看到MapFile由两部分组成，分别是data和index。index作为文件的数据索引，主要记录了每个Record的key值，以及该Record在文件中的偏移位置。在MapFile被访问的时候,索引文件会被加载到内存，通过索引映射关系可迅速定位到指定Record所在文件位置，因此，相对而言，MapFile的检索效率是高效的。本实施例中选择MapFile作为海量小文件的存储方式。

若检测到目标存储数据的当前所占容量值大于文件缓存阈值，则表明该目标存储数据需要传输至分布式集群中，即通过缓存区域将该目标存储数据中的已缓存文件进行合并，且合并后的存储形式为MapFile形式，并将合并后的MapFile传输至分布式集群中存储；其中，第一存储路路径为合并后的MapFile形式的存储数据中各个存储文件的存储地址。具体可参见图5的左半部分展示示意图。

S260、控制缓存区域将目标存储数据中的已缓存文件继续独立存储，并返回待上传文件的存储路径。

在本实施例中，如果目标存储数据中各个已缓存文件的所占容量值之和仍小于文件存储阈值，则继续将各个已缓存文件进行单独存储在目标存储数据中，并将待上传文件的存储地址返回至Web应用，使得文件使用者通过Web查询接口查询文件时，能够通过该地址快速准确的查询到所需文件。

在上述实施例的基础上，可选的，将文件生产者的待上传文件写入缓存区域的目标存储数据中，包括：

遍历查询缓存区域的各存储数据的写入操作进程数；

若检测到写入操作进程数为第一数值，则确定当前存储数据为目标存储数据，并将文件生产者的待上传文件写入目标存储数据中；

若检测到所有的存储数据的写入操作进程数均为第二数值，则在缓存区域中创建一个新的存储数据作为目标存储数据，并将待上传文件写入目标存储数据中。

在本实施例中，写入操作进程数能够有效反映出该存储数据是否能够执行被写入操作；其中，第一数据为0；第二数据为1。本实施例在检测到缓存区域中没有能够支持写入操作的存储数据时，直接创建一个新的存储数据，用于将待上传文件写入至该存储数据中，避免了等待其他存储数据导致存储速率降低的情况，有效节省了待上传文件的存储时间。

在上述实施例的基础上，可选的，本实施例方法还包括：

若检测到目标存储数据的起始缓存时间戳和当前时刻的差值大于预设时长阈值，则控制缓存区域将目标存储数据中的已缓存文件合并传输至分布式集群中。

在本实施例中，Web应用提供了一个定时任务的查询机制，在文件的写入过程中，实时监控各个存储数据的当前所占容量和缓存时长，并通过监控结果，将存储数据中的已缓存文件进行有效存储。例如，若检测到目标存储数据的起始缓存时间戳和当前时刻的差值大于30分钟，且目标存储数据的当前所占容量仍小于200M，则将该目标存储数据中的所有已缓存文件合并成一个大的MapFile传输至分布式集群中，以实现对缓存区域中存储容量的定时清理。

在上述实施例的基础上，可选的，通过Web写入接口查询缓存区域中是否存在目标存储数据，包括：

向缓存区域发送数据查询请求；

根据缓存区域返回的查询结果，确定缓存区域中是否存在目标存储数据。

在本实施例中，文件生产者在写文件前，需要对缓存区域中的存储数据进行有效性查询；其中，数据查询请求是为了查询缓存区域中是否有有效的存储数据，有效指的是存储数据的工作状态为空闲。缓存区域可根据各个存储数据的写入进程操作数，判断出该存储数据的工作状态，并将查询结果返回，以使得Web应用可以直接准确的对待上传文件进行写入操作。

在上述实施例的基础上，可选的，本实施例方法还包括：

通过Web查询接口从缓存区域中获取包含存储路径的待查询文件；

若根据存储路径从缓存区域中未查询到待查询文件，则通过Web查询接口从分布式集群中获取包含存储路径的待查询文件。

在本实施例中，当文件使用者需要查询文件时，Web应用可通过Web查询接口实现文件的有效查询；具体的，Web查询接口根据文件使用者提供的存储路径，先在缓存区域进行查询，若查询到待查询文件，则缓存区域通过byte数据将待查询文件返回至文件使用者，使得文件使用者可以还原待查询文件并进行展示。具体可参见图5的右半部分展示示意图。

若在缓存区域未查询到该存储路径下的文件，则通过Web查询接口直接从分布式集群中继续进行查找，此时，在分布式集群中可以查找到该存储路径下对应的相关文件；同时，分布式集群将待查询文件通过byte数据将待查询文件返回至文件使用者，使得文件使用者可以还原待查询文件并进行展示。本发明实施例主要针对小文件类型的处理，则查询的文件也是较小的，通过现在缓存区域和分布式集群中依次查询，能够快速有效的获取到待查询文件。

实施例三

图3是本发明实施例三中的文件处理装置的结构示意图，本实施例可适用于对海量附件进行有效存储的情况。该装置配置于电子设备中，可实现本申请任意实施例所述的文件处理方法。该装置具体包括如下：

数据查询模块310，用于通过Web写入接口查询缓存区域中是否存在目标存储数据；

文件合并模块320，用于若是，则将文件生产者的待上传文件写入所述缓存区域的目标存储数据中；

存储方式确定模块330，用于根据所述目标存储数据的当前所占容量值，确定所述目标存储数据中已缓存文件的存储方式。

可选的，文件合并模块320，具体用于：

遍历查询缓存区域的各存储数据的写入操作进程数；

可选的，还包括：

可选的，存储方式确定模块330，具体用于：

可选的，还包括：

可选的，数据查询模块310，具体用于：

向缓存区域发送数据查询请求；

可选的，还包括：

通过本发明实施例三的文件处理装置，可以对海量小文件分配不同的存储方式，从而有效提高文件生产者生成的多数文件的存储效率。

本发明实施例所提供的文件处理装置可执行本发明任意实施例所提供的文件处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四中的电子设备的结构示意图，如图4所示，该电子设备包括处理器410、存储器420、输入装置430和输出装置440；电子设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的文件处理方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本发明实施例所提供的文件处理方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，可以包括键盘、鼠标等。输出装置440可包括显示屏等显示设备。

实施例五

本实施例提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的文件处理方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的文件处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文件处理方法，其特征在于，所述方法包括：

通过Web写入接口查询缓存区域中是否存在目标存储数据；

2.根据权利要求1所述的方法，其特征在于，将文件生产者的待上传文件写入所述缓存区域的目标存储数据中，包括：

遍历查询缓存区域的各存储数据的写入操作进程数；

3.根据权利要求1所述的方法，其特征在于，在通过Web写入接口查询缓存区域中是否存在目标存储数据之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，根据所述目标存储数据的当前所占容量值，确定所述目标存储数据中已缓存文件的存储方式，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，通过Web写入接口查询缓存区域中是否存在目标存储数据，包括：

向缓存区域发送数据查询请求；

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.一种文件处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7中任一所述的文件处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7中任一所述的文件处理方法。