CN110109883A

CN110109883A - 一种文件滤重储存方法和装置

Info

Publication number: CN110109883A
Application number: CN201810072498.0A
Authority: CN
Inventors: 陈明耀
Original assignee: Aspire Digital Technologies Shenzhen Co Ltd
Current assignee: Aspire Digital Technologies Shenzhen Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2019-08-09
Anticipated expiration: 2038-01-25
Also published as: CN110109883B

Abstract

本发明公开了一种文件滤重储存方法和装置。所述方法包括：获取用户上传文件的文件特征码和文件指纹信息；根据文件指纹信息生成相应的hash值；根据生成的hash值，在key‑value数据库中查询是否存有内容相同的文件；如果不存有内容相同的文件，则根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key‑value数据库中。本发明通过用户上传文件的文件指纹信息来设置储存路径，避免了名称不同而内容相同文件的重复储存，节省了储存空间；还通过文件指纹信息来判断文件是否相同，避免了将相同名称但内容不同的文件判断成同一文件，保障了文件数据的安全。

Description

一种文件滤重储存方法和装置

技术领域

本发明涉及文件储存技术领域，特别涉及一种文件滤重储存方法和装置。

背景技术

业界涉及到文件上传储存，一般很少判断并识别服务端是否已经存在相同文件；而且文件名通常采用随机字符串方式命名，而计算机的随机数算法是伪随机数，避免不了重复。

在这种情况下，会出现不同文件因为同名被覆盖的情况，还会出现相同文件因不同名而上传了多份，浪费了文件服务器的系统资源的情况。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种文件滤重储存方法和装置。所述技术方案如下：

一方面，本发明实施例提供了一种文件滤重储存方法，所述方法包括：

获取用户上传文件的文件长度，并根据文件长度获取上传文件的文件特征码和文件指纹信息，所述文件指纹信息是指从文件特征码开始，在文件流内间断获取的包含头尾的至少三段文件片段；

根据文件指纹信息生成相应的hash值(即哈希值)；

根据生成的hash值，在key-value数据库中查询是否存有内容相同的文件；

如果不存有内容相同的文件，则根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中；

如果存有内容相同的文件，则将储用户上传的文件过滤处理。

在本发明实施例上述的文件滤重储存方法中，所述根据文件指纹信息生成相应的hash值，包括：

将指纹信息中的文件片段拼接后hash出32位长的字符串，来作为相应的hash值。

在本发明实施例上述的文件滤重储存方法中，所述根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中，包括：

将32位长的字符串的前28个字符中每四个字符串分割成一层储存目录，最后4个字符作为文件名，并用文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

在本发明实施例上述的文件滤重储存方法中，所述根据hash值生成相应的储存路径，并将文件特征码作为用户上传文件的扩展名，来将用户上传的文件储存在key-value数据库中，还包括：

将hash值和文件储存路径均存入key-value数据库。

在本发明实施例上述的文件滤重储存方法中，所述方法还包括：所述根据hash值生成相应的储存路径，并将文件特征码作为用户上传文件的扩展名，来将用户上传的文件储存在key-value数据库中，还包括：

将文件储存路径与业务应用建立关联关系，并保存在key-value数据库中。

另一方面，本发明实施例提供了一种文件滤重储存装置，所述装置包括：

获取模块，用于获取用户上传文件的文件长度，并根据文件长度获取上传文件的文件特征码和文件指纹信息，所述文件指纹信息是指从文件特征码开始，在文件流内间断获取的包含头尾的至少三段文件片段；

生成模块，用于根据文件指纹信息生成相应的hash值；

查询模块，用于根据生成的hash值，在key-value数据库中查询是否存有内容相同的文件；

储存模块，用于当不存在内容相同文件时，根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中；

过滤处理模块，用于当存在内容相同的文件时，将储用户上传的文件过滤处理。

在本发明实施例上述的文件滤重储存装置中，所述生成模块，还用于将指纹信息中的文件片段拼接后hash出32位长的字符串，来作为相应的hash值。

在本发明实施例上述的文件滤重储存装置中，所述储存模块，还用于将32位长的字符串的前28个字符中每四个字符串分割成一层储存目录，最后4个字符作为文件名，并用文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

在本发明实施例上述的文件滤重储存装置中，所述储存模块，还用于将hash值和文件储存路径均存入key-value数据库。

在本发明实施例上述的文件滤重储存装置中，所述储存模块，还用于将文件储存路径与业务应用建立关联关系，并保存在key-value数据库中。

本发明实施例提供的技术方案带来的有益效果是：

通过用户上传文件的文件指纹信息来设置储存路径，避免了名称不同而内容相同文件的重复储存，节省文件系统的资源占用率，节省了服务器的储存空间，保证了同一内容的文件在文件系统只保存一份；还通过文件指纹信息来判断文件是否相同，避免了将相同名称但内容不同的文件判断成同一文件，进而避免了不同内容文件不会因同名导致新上传的文件覆盖老文件，保障了文件数据的安全。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种文件滤重储存方法流程图；

图2是本发明实施例一提供的一种文件指纹信息获取原理示意图；

图3是本发明实施例二提供的一种文件滤重储存装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施例提供了一种文件滤重储存方法，参见图1，该方法可以包括：

步骤S11，获取用户上传文件的文件长度，并根据文件长度获取上传文件的文件特征码和文件指纹信息，该文件指纹信息是指从文件特征码开始，在文件流内间断获取的包含头尾的至少三段文件片段。

在本实施例中，先根据用户上传文件的数据流来采集上传文件的长度，然后根据文件长度来获取文件的文件特征码(具有一定特点或特征的一串字符)和文件指纹信息，参见图2，该文件指纹信息是指从文件特征码开始，在文交流内间断获取的包含头尾的至少三段文件片段(本实施例采用了包含头尾的四段文件片段)，采用文件指纹信息来识别文件，能有效区分出不同名称却相同内容的文件，防止这样的相同文件重复储存。

需要说明的是，特征码和文件指纹信息的采集在读取输入流时同步进行，对原有文件流无干扰，即对文件上传无影响。

步骤S12，根据文件指纹信息生成相应的hash值。

在本实施例中，hash(即散列)就是把任意长度的输入(即文件指纹的文件片段拼接作为输入)，通过散列算法，变换成固定长度的输出(即hash值)，该输出就是散列值，这种转换是一种压缩映射，由此产生的hash值与采集的文件指纹信息成对应关系，能很好的作为文件的身份信息。

具体地，上述步骤S12可以通过如下方式实现：

在本实施例中，将间隔采集到的四段文件片段拼接后，通过散列算法，输出固定32位长的字符串，来作为相应的hash值，供后续使用。

步骤S13，根据生成的hash值，在key-value数据库中查询是否存有内容相同的文件。

在本实施例中，文件的hash值与文件的文件指纹信息对应，能很好用于文件的识别，而不会出现名称相同但内容不同的文件，被判断成相同文件。如果查询不存在内功相同文件，则执行步骤S14，如果查询存在内容相同文件，则执行步骤S15。

步骤S14，根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

在本实施例中，不同内容的文件采用由文件指纹信息转化得来的储存路径，避免了同名不同内容的文件，因名称相同而造成的覆盖储存问题。

具体地，上述步骤S14可以通过如下方式实现：

在本实施例中，采用hash值的前28个字符，每四个字符串分割成一层储存目录，形成7层储存目录的储存路径，而最后4个字符作为文件名，并用文件特征码得到的扩展名作为文件的扩展名，这样就可以免除内容不同的文件出现同名的情况。而且采用由hash值形成的储存路径来储存上传文件，使得不同内容的文件不会储存在同一位置，避免了由于名称相同而出现的覆盖储存问题。

进一步地，上述步骤S14还可以包括：

将hash值和文件储存路径均存入key-value数据库。

在本实施例中，Key-value数据库是一种以键值对存储数据的一种数据库，将hash值和文件储存路径作为键值储存，便于查询key-value数据库中是否已存储有内容相同的文件。

进一步地，上述步骤S14还可以包括：

在本实施例中，用户的客户端上述文件至服务器中储存，服务器依赖于高效的内存型key-value数据库，要采用分布式集群部署模式保证服务的不间断和数据完整性，在服务器中将文件储存路径与业务应用建立关联关系，有助于业务应用快速调用key-value数据库中储存的文件。

步骤S15，将储用户上传的文件过滤处理，即不存储用户上传的文件。

在本实施例中，将内容相同的文件过滤处理掉，避免内容相同的文件充分储存，节省服务器的储存资源。

需要说明的是，该文件滤重储存方法，还可以利用key-value数据库自带的计数器功能，实现当相同内容文件增加上传或删除一次，计数器做增减，相当于文件的软链接数，当计数器为0时，文件系统上的物理文件将被删除，从而确保文件系统资源的释放。

本发明实施例通过用户上传文件的文件指纹信息来设置储存路径，避免了名称不同而内容相同文件的重复储存，节省文件系统的资源占用率，节省了服务器的储存空间，保证了同一内容的文件在文件系统只保存一份；还通过文件指纹信息来判断文件是否相同，避免了将相同名称但内容不同的文件判断成同一文件，进而避免了不同内容文件不会因同名导致新上传的文件覆盖老文件，保障了文件数据的安全。

实施例二

本发明实施例提供了一种文件滤重储存装置，执行了实施例一所述的方法，参见图3，该装置可以包括：获取模块100、生成模块200、查询模块300、储存模块400、过滤处理模块500。

获取模块100，用于获取用户上传文件的文件长度，并根据文件长度获取上传文件的文件特征码和文件指纹信息，该文件指纹信息是指从文件特征码开始，在文件流内间断获取的包含头尾的至少三段文件片段。

在本实施例中，先根据用户上传文件的数据流来采集上传文件的长度，然后根据文件长度来获取文件的文件特征码(具有一定特点或特征的一串字符)和文件指纹信息，该文件指纹信息是指从文件特征码开始，在文交流内间断获取的包含头尾的至少三段文件片段(本实施例采用了包含头尾的四段文件片段)，采用文件指纹信息来识别文件，能有效区分出不同名称却相同内容的文件，防止这样的相同文件重复储存。

生成模块200，用于根据文件指纹信息生成相应的hash值。

具体地，生成模块200，还用于将指纹信息中的文件片段拼接后hash出32位长的字符串，来作为相应的hash值。

查询模块300，用于步骤S13，根据生成的hash值，在key-value数据库中查询是否存有内容相同的文件。

在本实施例中，文件的hash值与文件的文件指纹信息对应，能很好用于文件的识别，而不会出现名称相同但内容不同的文件，被判断成相同文件。

储存模块400，用于当不存在内容相同文件时，根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

具体地，储存模块400，还用于将32位长的字符串的前28个字符中每四个字符串分割成一层储存目录，最后4个字符作为文件名，并用文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

过滤处理模块500，用于存在内容相同文件时，将储用户上传的文件过滤处理，即不存储用户上传的文件。

可选地，储存模块400，还用于将hash值和文件储存路径均存入key-value数据库。

可选地，储存模块400，还用于将文件储存路径与业务应用建立关联关系，并保存在key-value数据库中。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是：上述实施例提供的文件滤重储存装置在实现文件滤重储存方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文件滤重储存装置与文件滤重储存方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件滤重储存方法，其特征在于，所述方法包括：

根据文件指纹信息生成相应的hash值；

2.根据权利要求1所述的方法，其特征在于，所述根据文件指纹信息生成相应的hash值，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据hash值生成相应的储存路径和文件名称，并将文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据hash值生成相应的储存路径，并将文件特征码作为用户上传文件的扩展名，来将用户上传的文件储存在key-value数据库中，还包括：

将hash值和文件储存路径均存入key-value数据库。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：所述根据hash值生成相应的储存路径，并将文件特征码作为用户上传文件的扩展名，来将用户上传的文件储存在key-value数据库中，还包括：

6.一种文件滤重储存装置，其特征在于，包括：

生成模块，用于根据文件指纹信息生成相应的hash值；

7.根据权利要求6所述的装置，其特征在于，所述生成模块，还用于将指纹信息中的文件片段拼接后hash出32位长的字符串，来作为相应的hash值。

8.根据权利要求7所述的装置，其特征在于，所述储存模块，还用于将32位长的字符串的前28个字符中每四个字符串分割成一层储存目录，最后4个字符作为文件名，并用文件特征码得到的扩展名作为文件的扩展名，来将用户上传的文件储存在key-value数据库中。

9.根据权利要求8所述的装置，其特征在于，所述储存模块，还用于将hash值和文件储存路径均存入key-value数据库。

10.根据权利要求8所述的装置，其特征在于，所述储存模块，还用于将文件储存路径与业务应用建立关联关系，并保存在key-value数据库中。