CN115374070A

CN115374070A - 一种数据粒子化技术与分布式存储结合的存储方法及系统

Info

Publication number: CN115374070A
Application number: CN202210981979.XA
Authority: CN
Inventors: 张凯; 王志明; 牛德标
Original assignee: Beijing LSSEC Technology Co Ltd
Current assignee: Beijing LSSEC Technology Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-22
Anticipated expiration: 2042-08-16
Also published as: CN115374070B

Abstract

本发明提供了一种数据粒子化技术与分布式存储结合的存储方法，包括：获取用户上传的待存储文件，并确定待存储文件的属性信息；根据待存储文件的属性信息，基于预设的属性信息‑粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小；根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。通过本发明的数据粒子化技术与分布式存储结合的存储方法实现了提高文件存储的安全性的同时降低数据存储时的数据扩展率。

Description

一种数据粒子化技术与分布式存储结合的存储方法及系统

技术领域

本发明涉及大数据分析领域，特别涉及一种数据粒子化技术与分布式存储结合的存储方法及系统。

背景技术

云存储是一种网上在线存储(英语：Cloud storage)的模式，即把数据存放在通常由第三方托管的多台虚拟服务器，而非专属的服务器上。托管(hosting)公司运营大型的数据中心，需要数据存储托管的人，则透过向其购买或租赁存储空间的方式，来满足数据存储的需求。

现有的复制的分布式云存储存储方案所需的存储空间太大，不是存储优化的，为了保护f个可能出现故障的服务器，对于每个数据对象至少需要维护3f+1个复制品。在大数据背景下，传统的秘密分享技术应用到数据分散场景无法避免的成倍数据扩展问题形成了严重的应用掣肘。1T字节的数据采用密码分享技术分散为10个数据存储到不同地点，总数据量扩展了10倍，这也许还可用接受。但1Petabyte(千万亿字节)的数据扩展10倍所产生的消耗(存储空间和通信时间)则是完全不可接受的。若需要提供安全性，一般会考虑基于Shamir方案的秘密分享技术，由此会带来了巨大的数据扩展，增加数据传输存储的资源消耗。

所以如何提高文件存储的安全性的同时降低数据存储时的数据扩展率，成为了现有云存储技术所急需要面对的一个难题。

发明内容

本发明提供一种数据粒子化技术与分布式存储结合的存储方法及系统，用以提高文件存储的安全性的同时降低数据存储时的数据扩展率。

本发明提供的一种数据粒子化技术与分布式存储结合的存储方法，包括：

获取用户上传的待存储文件，并确定待存储文件的属性信息；

根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小；

根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。

优选的，所述确定待存储文件的属性信息包括：

创建文件流对象，并将所述待存储文件装载入文件流对象取得待存储文件的属性信息，其中，所述属性信息包括文件大小、类型。

优选的，所述根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，包括：

根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致；

将所述待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；

依次对多个粒子化文件进行查验，在确定分割后粒子化文件的总数以及每个粒子化文件的大小符合标准要求后，确定查验通过；

根据粒子化文件的总数以及每一个粒子化文件的大小在云端服务器上划分对应数量对应容量的存储区域，并得到多个存储地址；

基于多个存储地址将多个粒子化文件进行分布式存储；

建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，所述元数据包括粒子化文件的编号、大小以及映射的存储地址；

将多个元数据进行整合得到文件索引令牌返回给用户。

优选的，所述将所述待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件包括：

建立数据缓存区，并将用户上传的所述待存储文件读取入数据缓存区内，使待存储文件进入待处理状态；

确定待存储文件对应的粒子化文件的总数，并指定所设定的对应大小的数据处理缓冲区；

将待存储文件加载入所指定的数据处理缓冲区，当数据处理缓冲区满载后将数据处理缓冲区内的数据块进行封装，得到一个粒子化文件并进行释放；

对所述待存储文件进行滑动式加载，依次截取待存储文件上的多个片段得到多个粒子化文件。

优选的，所述所述根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，还包括：

利用用户预先设置的公钥对所述待存储文件进行第一次加密，并确定加密后文件的大小；

根据所确定的数据处理缓冲区大小以及加密后文件的大小计算加密后文件的粒子化文件的总数，并确定最后一个粒子化文件的大小；

将加密后文件按照预设的加载规则加载入数据处理缓冲区进行分割，顺序得到多个粒子化文件；

根据预设的加密规则依次对多个粒子化文件进行数据二次加密，并确定数据二次加密后的每个粒子化文件的大小；

根据每个粒子化文件的大小在云端服务器上划分对应容量的存储区域，并对每个粒子化文件进行分布式存储。

优选的，在对每个粒子化文件进行分布式存储后，生成文件索引令牌并返还给用户包括：

确定每个经过数据二次加密后的粒子化文件各自对应的元数据；

将多个元数据按对应的粒子化文件的编号进行顺序排序并整合得到第一整合文件；

将第一整合文件与用户预先设置的公钥编号结合生成索引令牌并返还给用户。

优选的，在对多个粒子化文件进行分布式存储后按照最小稳定备份规则对多个粒子化文件进行备份，步骤包括：

按照预设的最小有效备份数量对每个粒子化文件进行复制备份，并建立所有复制备份品与粒子化文件本体之间的相关关系；

在经过一个预设的第一存储时间后，调取任意一个粒子化文件以及其对应的所有复制备份品建立第一数据集；

计算第一数据集中每两个相邻数据的特征向量之间的第一距离，并利用多个第一距离构建第二数据集；

根据预设的置信水平系数，确定第二数据集中第一距离的概率累计分布状况，并根据概率累计分状况确定第二数据集的数据半径；其中，所述数据半径包括第一数据半径和第二数据半径；

通过以下概率学计算公式获取第一数据半径R₁：

通过以下概率学计算公式获取第二数据半径R₂：

通过建立以下差异度计算公式确定第二数据集中数据的差异度：

Diversity_data＝(R₂-R₁)·R₁

式中，distance为第二数据集中数据点到数据均值点的距离变量，β为预设的置信水平系数，Diversity_data为第二数据集中数据的差异度，差异度越大则第二数据集的稳定性越差，该粒子化文件的备份存储效果越差；

利用反比例关系公式通过差异度计算稳定度，从而得到该粒子化文件备份存储的稳定度；

当稳定度低于预设的第一稳定度阈值时，计算稳定度与第一稳定度阈值之间的第一稳定度差值，并根据预设的第一稳定度差值-第一比例系数的关系表格得到对应的第一比例系数，利用第一比例系数以及该粒子化文件的备份数量计算得到需要追加的备份数量，并根据需要追加的备份数量对该粒子化文件进行第二次备份；

当稳定度高于预设的第二稳定度阈值时，计算稳定度与第二稳定度阈值之间的第二稳定度差值，并根据预设的第二稳定度差值-第二比例系数的关系表格得到对应的第二比例系数，利用第二比例系数以及该粒子化文件的备份数量计算得到需要减少的备份数量，并根据需要减少的备份数量对该粒子化文件进行第二次备份。

优选的，在对多个粒子化文件并进行分布式存储时，对存储服务器进行有效性筛选，具体包括：

对待存储文件进行粒子化分割处理后，确定分割处理器与所选定的存储服务器的存储历史信息；

根据存储历史信息确定分割处理器与所选定的存储服务器之间在进行存储工作时的存储平均失效间隔t_MTBF、平均修复时间t_MTTR以及平均无故障时间t_MTTF；

通过存储平均失效间隔t_MTBF、平均修复时间t_MTTR以及平均无故障时间t_MTTF建立粒子化文件存储成功的概率模型：

式中，P表示为所选定的存储服务器存储粒子化文件的成功概率，X表示数据处理缓冲区大小对应的数据大小，Y表示最后一个分割的粒子化文件的数据大小，V表示分割处理器与所选定的存储服务器之间的平均传输速率，n表示需要在该存储服务器上存储的除了最后一个分割的粒子化文件外的其他粒子化文件的个数且n不等于0，ρ表示判定系数，当需要在该存储服务器存储最后一个分割的粒子化文件时ρ等于1，当不需要在该存储服务器存储最后一个分割的粒子化文件时ρ等于0；

当成功概率低于预设的成功概率阈值时，选择另外的存储服务器存储粒子化文件。

为达到以上目的，本发明实施例还提供了一种数据粒子化技术与分布式存储结合的存储系统，包括：

文件及属性获取模块，用于获取用户上传的待存储文件，并确定待存储文件的属性信息；

粒子化等级确定模块，用于根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小；

粒子化分割存储模块，用于根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。

优选的，所述粒子化分割存储模块，包括：

粒子化文件计算单元，用于根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致；

粒子化分割单元，用于将所述待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；

文件查阅单元，用于依次对多个粒子化文件进行查验，在确定分割后粒子化文件的总数以及每个粒子化文件的大小符合标准要求后，确定查验通过；

存储区域划分单元，用于根据粒子化文件的总数以及每一个粒子化文件的大小在云端服务器上划分对应数量对应容量的存储区域，并得到多个存储地址；

分布式存储单元，用于基于多个存储地址将多个粒子化文件进行分布式存储；

元数据获取单元，建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，所述元数据包括粒子化文件的编号、大小以及映射的存储地址；

索引令牌生成单元，用于将多个元数据进行整合得到文件索引令牌返回给用户。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种数据粒子化技术与分布式存储结合的存储方法的步骤流程图；

图2为本发明实施例中对文件进行粒子化处理以及分布式存储的步骤流程图；

图3为本发明实施例中检测中一种数据粒子化技术与分布式存储结合的存储系统的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种数据粒子化技术与分布式存储结合的存储方法，如图1，包括：

步骤S1、获取用户上传的待存储文件，并确定待存储文件的属性信息；

步骤S2、根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小；

步骤S3、根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。

上述技术方案的工作原理和有益效果为：通过客户端获取用户上传的待存储文件并确定待存储文件的属性信息，然后根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小，由于每种文件的属性不一样，在粒子化处理过程中的保真程度要求也不一样，越精细化的文件对粒子化处理的要求越高在对其进行处理时能够进行粒子化处理的程度也就越低，需要进行的粒子化等级也就越低，针对不同属性的待存储文件也就需要不一样的粒子化等级，值得注意的是对于同一个带存储文件进行粒子化处理时，可按照属性对文件内容进行排序处理，从而可以对不同属性的文件进行不同粒子化等级的处理。根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。从而实现了通过数据粒子化技术，基本继承了传统秘密分享技术的安全属性，另一方面将数据扩展率降低到了理论上的最小值。天然适合多云分布式存储海量数据的应用场景，在确保分布式储系统的机密性和鲁棒性的同时，不明显增加数据的总量，缓解目前计算、存储资源紧缺的现状。

优选的，确定待存储文件的属性信息包括：

创建文件流对象，并将待存储文件装载入文件流对象取得待存储文件的属性信息，其中，属性信息包括文件大小、类型。

上述技术方案的工作原理和有益效果为：通过创建的文件流对象，通过开启数据源到文件流对象的文件输入流，将用户上传的待存储文件批量的写入文件流对象，同时通过开启的输出流将获取的文件属性信息进行定向输出，能够实现对待存储文件的规范化装载处理，能够提高获取待存储文件的属性信息时的工作效率。

优选的，根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，如图2，包括：

步骤S31、根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致；

步骤S32、将待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；

步骤S33、依次对多个粒子化文件进行查验，在确定分割后粒子化文件的总数以及每个粒子化文件的大小符合标准要求后，确定查验通过；

步骤S34、根据粒子化文件的总数以及每一个粒子化文件的大小在云端服务器上划分对应数量对应容量的存储区域，并得到多个存储地址；

步骤S35、基于多个存储地址将多个粒子化文件进行分布式存储；

步骤S36、建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，元数据包括粒子化文件的编号、大小以及映射的存储地址；

步骤S37、将多个元数据进行整合得到文件索引令牌返回给用户。

上述技术方案的工作原理和有益效果为：在对待存储文件进行粒子化分割存储时，需要根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小，在对待存储文件进行分割时，由于待存储文件的数据大小不一定是数据处理缓冲区大小的整数倍，所以最后一个粒子化文件的大小跟前面所处理的粒子化文件的大小不一样，在进行存储时也用不到那么多的存储空间，对其大小进行分析计算从而能够提高存储空间的利用率；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致，数据处理缓冲区大小表示数据处理缓冲区的数据容量；将待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；依次对多个粒子化文件进行查验，在确定分割后粒子化文件的总数以及每个粒子化文件的大小符合标准要求后，确定查验通过，从而防止对文件粒子化时因数据重复导致误识别所发生的数据处理位置易位对分割处理工作带来的错误影响。根据粒子化文件的总数以及每一个粒子化文件的大小在云端服务器上划分对应数量对应容量的存储区域，并得到多个存储地址；从而实现对存储区域的按需划分，提高数据存储空间的利用率；基于多个存储地址将多个粒子化文件进行分布式存储；建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，元数据包括粒子化文件的编号、大小以及映射的存储地址；将多个元数据进行整合得到文件索引令牌返回给用户，用户可根据文件索引令牌对所有粒子化文件进行提取，然后通过服务器进行还原，实现对文件的粒子化分割以及分布式存储。

优选的，将待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件包括：

建立数据缓存区，并将用户上传的待存储文件读取入数据缓存区内，使待存储文件进入待处理状态；

对待存储文件进行滑动式加载，依次截取待存储文件上的多个片段得到多个粒子化文件。

上述技术方案的工作原理和有益效果为：在对待存储文件进行分割时，首先需要建立数据缓存区，并将用户上传的待存储文件读取入数据缓存区内，使待存储文件进入待处理状态，使待存储文件能够被快速处理，提高文件分割的处理速度；然后确定待存储文件对应的粒子化文件的总数，从而能够根据所确定的粒子化文件的总数对处理进度进行监测，并指定所设定的对应大小的数据处理缓冲区；进而将待存储文件加载入所指定的数据处理缓冲区，当数据处理缓冲区满载后将数据处理缓冲区内的数据块进行封装，得到一个粒子化文件并进行释放；最后对待存储文件进行滑动式加载，依次截取待存储文件上的多个片段得到多个粒子化文件。从而实现了对待存储文件的规范化的粒子化处理，提高文件粒子化处理的效率。

优选的，根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，还包括：

利用用户预先设置的公钥对待存储文件进行第一次加密，并确定加密后文件的大小；

上述技术方案的工作原理和有益效果为：在对待存储文件进行粒子化处理过程中，为了进一步保证文件的安全问题，可以利用用户预先设置的公钥对待存储文件进行第一次加密，并确定加密后文件的大小；根据所确定的数据处理缓冲区大小以及加密后文件的大小计算加密后文件的粒子化文件的总数，并确定最后一个粒子化文件的大小；将加密后文件按照预设的加载规则加载入数据处理缓冲区进行分割，顺序得到多个粒子化文件；根据预设的加密规则依次对多个粒子化文件进行数据二次加密，并确定数据二次加密后的每个粒子化文件的大小；根据每个粒子化文件的大小在云端服务器上划分对应容量的存储区域，并对每个粒子化文件进行分布式存储。从而实现了对文件的第一次加密和第二次加密，其中第一次加密为用户公钥加密规则进行加密，从而防止其他黑客对该用户的账户进行登陆实施文件盗取行为，第二次加密为系统自带加密，防止黑客对文件进行拦截盗取。

将第一整合文件与用户预先设置的公钥编号结合生成文件索引令牌并返还给用户。

上述技术方案的工作原理和有益效果为：在为用户生产文件索引令牌时，需要确定每个经过数据二次加密后的粒子化文件各自对应的元数据；将多个元数据按对应的粒子化文件的编号进行顺序排序并整合得到第一整合文件；将第一整合文件与用户预先设置的公钥编号结合生成索引令牌并返还给用户。使用户能够通过文件索引令牌将所有的粒子化文件进行召回，并根据用户自行设置的公钥编号提醒用户在对该文件进行加密时所用的公钥对应的私钥。

根据预设的置信水平系数，确定第二数据集中第一距离的概率累计分布状况，并根据概率累计分状况确定第二数据集的数据半径；其中，数据半径包括第一数据半径和第二数据半径；

通过以下概率学计算公式获取第一数据半径R₁：

通过以下概率学计算公式获取第二数据半径R₂：

Diversity_data＝(R₂-R₁)·R₁

上述技术方案的工作原理和有益效果为：系统将会在对多个粒子化文件进行分布式存储后按照最小稳定备份规则对多个粒子化文件进行备份，其过程包括：按照预设的最小有效备份数量对每个粒子化文件进行复制备份，并建立所有复制备份品与粒子化文件本体之间的相关关系，从而能够在对某个粒子化文件进行检查时确定所有备份文件的位置从而对所有备份文件进行提取；在经过一个预设的第一存储时间后，调取任意一个粒子化文件以及其对应的所有复制备份品建立第一数据集；计算第一数据集中每两个相邻数据的特征向量之间的第一距离，并利用多个第一距离构建第二数据集；根据预设的置信水平系数，确定第二数据集中第一距离的概率累计分布状况，并根据概率累计分状况确定第二数据集的数据半径；其中，数据半径包括第一数据半径和第二数据半径；通过以下概率学计算公式获取第一数据半径R₁：

通过以下概率学计算公式获取第二数据半径R₂：

Diversity_data＝(R₂-R₁)·R₁

式中，distance为第二数据集中数据点到数据均值点的距离变量，β为预设的置信水平系数，Diversity_data为第二数据集中数据的差异度，差异度越大则第二数据集的稳定性越差，该粒子化文件的备份存储效果越差；利用反比例关系公式通过差异度计算稳定度，从而得到该粒子化文件备份存储的稳定度；当稳定度低于预设的第一稳定度阈值时，说明稳定度过低，文件有丢失风险，通过计算稳定度与第一稳定度阈值之间的第一稳定度差值，并根据预设的第一稳定度差值-第一比例系数的关系表格得到对应的第一比例系数，利用第一比例系数以及该粒子化文件的备份数量计算得到需要追加的备份数量，并根据需要追加的备份数量对该粒子化文件进行第二次备份，例如当稳定度低于预设的第一稳定度阈值时，确定第一稳定度差值，并根据预设的第一稳定度差值-第一比例系数的关系表格得到对应的第一比例系数(如30％)，则利用第一比例系数以及该粒子化文件的备份数量(如100份)计算得到需要追加的备份数量30％乘以100份为30份，则需要追加备份30份来防止数据丢失。当稳定度高于预设的第二稳定度阈值时，计算稳定度与第二稳定度阈值之间的第二稳定度差值，并根据预设的第二稳定度差值-第二比例系数的关系表格得到对应的第二比例系数，利用第二比例系数以及该粒子化文件的备份数量计算得到需要减少的备份数量，并根据需要减少的备份数量对该粒子化文件进行第二次备份，来减少文件存储时存储空间资源的浪费。从而实现了对粒子化文件备份数量下文件数据内容稳定性的分析计算，并根据稳定系对备份数量进行调整降低文件丢失风险以及减少对存储空间资源的浪费。

式中，P表示为所选定的存储服务器存储粒子化文件的成功概率，X表示数据处理缓冲区大小对应的数据大小(也就是除了最后一个分割的粒子化文件外的其他粒子化文件的统一大小)，Y表示最后一个分割的粒子化文件的数据大小，V表示分割处理器与所选定的存储服务器之间的平均传输速率，如果需要在该存储服务器上存储多个粒子化文件，则其中的n表示需要在该存储服务器上存储的除了最后一个分割的粒子化文件外的其他粒子化文件的个数且n不等于0，ρ表示判定系数，当需要在该存储服务器存储最后一个分割的粒子化文件时ρ等于1，当不需要在该存储服务器存储最后一个分割的粒子化文件时ρ等于0；

上述技术方案的工作原理和有益效果为：通过对待存储文件进行粒子化分割处理后，确定分割处理器与所选定的存储服务器的存储历史信息；根据存储历史信息确定分割处理器与所选定的存储服务器之间在进行存储工作时的存储平均失效间隔t_MTBF、平均修复时间t_MTTR以及平均无故障时间t_MTTF；通过存储平均失效间隔t_MTBF、平均修复时间t_MTTR以及平均无故障时间t_MTTF建立粒子化文件存储成功的概率模型，并利用概率模型计算出该存储服务器存储时的成功概率；当成功概率低于预设的成功概率阈值时，则选择另外的存储服务器存储粒子化文件，从而提高存储时的存储效率，防止浪费时间在不可靠的存储服务器上。

文件及属性获取模块1，用于获取用户上传的待存储文件，并确定待存储文件的属性信息；

粒子化等级确定模块2，用于根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小；

粒子化分割存储模块3，用于根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。

上述技术方案的工作原理和有益效果为：文件及属性获取模块1通过客户端获取用户上传的待存储文件并确定待存储文件的属性信息，然后粒子化等级确定模块2根据待存储文件的属性信息，基于预设的属性信息-粒子化等级表格确定待存储文件的粒子化等级以及所需要的数据处理缓冲区大小，由于每种文件的属性不一样，在粒子化处理过程中的保真程度要求也不一样，越精细化的文件对粒子化处理的要求越高在对其进行处理时能够进行粒子化处理的程度也就越低，需要进行的粒子化等级也就越低，针对不同属性的待存储文件也就需要不一样的粒子化等级，值得注意的是对于同一个带存储文件进行粒子化处理时，可按照属性对文件内容进行排序处理，从而可以对不同属性的文件进行不同粒子化等级的处理。粒子化分割存储模块3根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储。从而实现了通过数据粒子化技术，基本继承了传统秘密分享技术的安全属性，另一方面将数据扩展率降低到了理论上的最小值。它天然适合多云分布式存储海量数据的应用场景，在确保分布式储系统的机密性和鲁棒性的同时，不明显增加数据的总量，缓解目前计算、存储资源紧缺的现状。

优选的，粒子化分割存储模块，包括：

粒子化分割单元，用于将待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；

元数据获取单元，建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，元数据包括粒子化文件的编号、大小以及映射的存储地址；

上述技术方案的工作原理和有益效果为：在对待存储文件进行粒子化分割存储时，需要粒子化文件计算单元根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小，在对待存储文件进行分割时，由于待存储文件的数据大小不一定是数据处理缓冲区大小的整数倍，所以最后一个粒子化文件的大小跟前面所处理的粒子化文件的大小不一样，在进行存储时也用不到那么多的存储空间，对其大小进行分析计算从而能够提高存储空间的利用率；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致，数据处理缓冲区大小表示数据处理缓冲区的数据容量；粒子化分割单元将待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件；文件查阅单元依次对多个粒子化文件进行查验，在确定分割后粒子化文件的总数以及每个粒子化文件的大小符合标准要求后，确定查验通过，从而防止对文件粒子化时因数据重复导致误识别所发生的数据处理位置易位对分割处理工作带来的错误影响。存储区域划分单元根据粒子化文件的总数以及每一个粒子化文件的大小在云端服务器上划分对应数量对应容量的存储区域，并得到多个存储地址；从而实现对存储区域的按需划分，提高数据存储空间的利用率；分布式存储单元基于多个存储地址将多个粒子化文件进行分布式存储；元数据获取单元建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，元数据包括粒子化文件的编号、大小以及映射的存储地址；索引令牌生成单元将多个元数据进行整合得到文件索引令牌返回给用户，用户可根据文件索引令牌对所有粒子化文件进行提取，然后通过服务器进行还原，实现对文件的粒子化分割以及分布式存储。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，包括：

2.根据权利要求1所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，所述确定待存储文件的属性信息包括：

3.根据权利要求1所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，所述根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，包括：

基于多个存储地址将多个粒子化文件进行分布式存储；

将多个元数据进行整合得到文件索引令牌返回给用户。

4.根据权利要求3所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，所述将所述待存储文件按照预设的加载规则加载入数据处理缓冲区进行分割，得到多个粒子化文件包括：

5.根据权利要求3所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，所述根据所确定的数据处理缓冲区大小以及待存储文件的大小对待存储文件进行粒子化分割处理，得到多个粒子化文件并进行分布式存储，还包括：

6.根据权利要求5所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，在对每个粒子化文件进行分布式存储后，生成文件索引令牌并返还给用户包括：

7.根据权利要求1所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于，在对多个粒子化文件进行分布式存储后按照最小稳定备份规则对多个粒子化文件进行备份，步骤包括：

通过以下概率学计算公式获取第一数据半径R₁：

通过以下概率学计算公式获取第二数据半径R₂：

Diversity_data＝(R₂-R₁)·R₁

8.根据权利要求1所述的一种数据粒子化技术与分布式存储结合的存储方法，其特征在于在对多个粒子化文件并进行分布式存储时，对存储服务器进行有效性筛选，具体包括：

9.一种数据粒子化技术与分布式存储结合的存储系统，其特征在于，包括：

10.根据权利要求9所述的一种数据粒子化技术与分布式存储结合的存储系统，其特征在于，所述粒子化分割存储模块，包括：

粒子化文件计算单元，用于根据所确定的数据处理缓冲区大小以及待存储文件的大小计算待存储文件对应的粒子化文件的总数，并确定最后分割得到的粒子化文件的大小；其中，除了最后一个粒子化文件以外的其他粒子化文件的大小与数据处理缓冲区的大小保持一致，数据处理缓冲区的大小与数据处理缓冲区大小有关；

元数据获取单元，用于建立每个粒子化文件分别与其存储地址的对应映射关系，并得到每个粒子化文件的元数据，其中，所述元数据包括粒子化文件的编号、大小以及映射的存储地址；