CN111078153A

CN111078153A - 一种基于文件的分布式存储方法

Info

Publication number: CN111078153A
Application number: CN201911322978.9A
Authority: CN
Inventors: 温海峰; 段飞虎; 罗晓斌; 印东敏; 宋彬; 冯自强; 张宏伟
Original assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd; Tongfang Knowledge Network Beijing Technology Co ltd
Current assignee: Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28
Anticipated expiration: 2039-12-20
Also published as: CN111078153B

Abstract

本发明公开了一种基于文件的分布式存储方法，包括：根据写入的路径确定要写入的节点，及根据写入的文件名确定要写入的dob文件的全路径名以及存储的表名；获取dob文件的大小，将获取的dob文件指针移动到该dob文件的末尾，读取写入的文件内容并进行加密，将处理过的文件内容写入dob文件；存储写入dob文件的目录、位置、大小、检索信息，并缓存目录信息，以提高检索性能。本发明采用局部变换算法结合位置偏移，实现分布式存储节点数据的安全性；采用了负载均衡算法，数据平衡地存储在各个节点，提高了整体的处理性能。

Description

一种基于文件的分布式存储方法

技术领域

本发明属于数据存储安全技术领域，尤其涉及在分布式存储环境下实现节点数据安全存储的方法。

背景技术

现有分布式存储是云存储的管理基础。它将多个存储站点合并为一个整体，通过计算把文件拆分成多个块存储至不同节点，与传统的存储系统相比，具有多种优势。比如，多点存储没有单点失效的问题，具有更高的可用性。然而，存储到不同节点的数据的机密性却是一软肋。攻击者可轻易获取整个文件的内容。随着用户对数据的隐私保护的要求提高和网络攻击者能力的提升，加之分散数据存在的弊端，对存储数据的机密性提出更高的要求。

为了确保分布式存储中数据的安全，一般使用加密技术对存储的数据进行加密，然后对加密后的密文分布式存储。然而这种方法存在弊端。第一，分布式集群系统的大规模以及大量数据使得加密后开销巨大；第二，新的攻击模型通过后门、贿赂、胁迫获得必要的密钥，又需要进一步对密钥进行管理；第三，加密的文件以分片的形式存储节点服务器中，一般加密技术属于可分离的加密模型，这种方法可能被攻击者蛮力搜索解密部分信息，攻击者再根据已知信息推算出实际内容，导致信息泄露。

对于windows系统的用户来说，一个目录下有大量的文件和目录，打开该目录会发生严重的卡顿，而一些用户，长期的文件累积，已经达到了亿级的文件存储。并且由于业务的发展，新的数据还在快速的增长，而对于大量的小文件的管理和迁移，性能也成为一个严重的问题。

为解决这些问题，通过对存储单元合理规划的基础上，把实际的物理文件加密存储到分配的存储单元中，通过文件在存储单元的偏移大小和文件本身的大小来定位和读写文件。本算法支持分布存储，存储过程进行了加密，存储的文件起始位置难以非授权界定以达到数据安全的要求。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于文件的分布式存储方法，该方法首先产生一个2G的文件(后缀是dob，后面以dob文件代指该文件)，第一个要存储的文件从该dob文件的偏移量为0的位置写入该文件的加密内容，第二个文件的偏移量就是第一个文件的大小，然后从该位置写入第二个文件的加密内容，以此类推。偏移量和文件大小及相关信息进行存储，检索时，根据偏移量进行定位，根据存储的文件大小进行数据的读取。

本发明的目的通过以下的技术方案来实现：

一种基于文件的分布式存储方法，包括：

A根据写入的路径确定要写入的节点，及根据写入的文件名确定要写入的dob文件的全路径名以及存储的表名；

B获取dob文件的大小，将获取的dob文件指针移动到该dob文件的末尾，读取写入的文件内容并进行加密，将处理过的文件内容写入dob文件；

C存储写入dob文件的目录、位置、大小、检索信息，并缓存目录信息，以提高检索性能。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

1、采用局部变换算法结合位置偏移，实现分布式存储节点数据的安全性。

2、采用了负载均衡算法，数据平衡地存储在各个节点，提高了整体的处理性能。

3、每个存储文件写满大小为2G,10T的文件也就是5120个，存储规模设为64个目录，平均每个目录下80个，查询和迁移都能满足性能要求。

附图说明

图1是基于文件的分布式存储方法流程图；

图2是存储模型结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于文件的分布式存储方法流程，包括以下步骤：

步骤10根据写入的路径确定要写入的节点，及根据写入的文件名确定要写入的dob文件的全路径名以及存储的表名；

首先计算写入文件的MD5值，并按照该MD5值在MD5表检索信息，如果该MD5的记录已经存在，表示同样的文件内容已经写过一次，则本次文件内容不再写入。然后判断目录是否存在，如果目录不存在，则把新的目录信息写入目录表。然后判断已经存在的文件名是否就是本次上传的文件名，如果是，再判断目录名是否一致，如果目录名和文件名都一致那么就是重复写入，就不用继续处理了，直接返回成功。如果不一致，写入虚拟文件信息到数据表：MD5信息写入MD5表，文件信息写入文件信息表。

新的文件，根据写入路径得到该文件要存储的节点：从写入路径分离出写入目录，根据目录检索存储节点，目录不存在，则根据以下算法选择节点：

节点的效能＝cpu占用率*权重1+内存占用率*权重2+磁盘使用率*权重3+磁盘写入率*权重4+网络传输率*权重5；

如上面的公式，节点的效能高，代表节点比较繁忙，因此选择效能低的节点为写入节点。

节点＝min(节点的效能)

在选择的节点上，根据文件名计算得到所存的dob文件名，根据相关的配置，唯一的确定dob文件的绝对路径，如果该文件不存在则创建出该文件。

dob文件名序号＝hash(文件名)％n，n为数据存储规模，代表存储表的最大数量。

根据计算出的dob文件名序号和存放的根路径设置及命名策略，唯一的确定dob文件的绝对路径，dob文件在的目录名对应着存储该文件信息的表名。

在确定了dob文件的全路径和存储表，通过hash算法，计算该文件应该写入到序号为0002的dob文件，第一个dob文件是/HFS_FILE_RECORD_0002/HFS_FILE_RECORD_0002_1.DOB。写入的表就是HFS_FILE_RECORD_0002表。

如图2所示，dcs(存储调度器)通过存入目录HFMS\CCNDX确定了右边的存入节点，右边的存入节点通过文件名QQQQ20191203001计算得到存入的block文件

/HFS_FILE_RECORD_0002/HFS_FILE_RECORD_0002_1.DOB。

步骤20获取dob文件的大小，将获取的dob文件指针移动到下一dob文件的末尾，读取写入的文件内容并进行加密，将处理过的文件内容写入dob文件；

因为文件是顺序写入到存储大文件中，文件间没有分隔识别符，因为开销和性能的原因，不再对其中的文件内容进行完全加密，文件的存储不是严格的分块，对非法解密来讲，从文件本身是很难定位出哪部分数据被加密，因为加密数据的起点是没有规律可循的。大于(n)k的文件，每个(n)k块的开始部分会被加密，小于(n)k的文件，开始部分会被加密。加密的种子密钥是给定的一定长度(奇数)的字符串，然后按照变换算法初始化一定长度的数组，该数组作为加密密钥，分别和相应位置的明文进行异或运算形成加密密文，然后写入dob文件。

加密算法包括密钥调度算法和伪随机子密码生成算法两大部分，密钥调度算法能够保证生成的初始化密钥是随机和会全部经过处理。伪随机序列生成算法，对上述初始化密钥进一步处理，生成伪随机序列，伪随机序列一旦生成，就得到子密钥subkey，把子密钥和明文进行异或运算，得到密文，解密过程也是一样。加密时，将明文字节与相应的k值异或；解密时，将密文字节与相应的k值异或就可以还原出明文信息。算法描述为：

for(i＝0；i<textlength；i++)

ciphertext[i]＝keystream[i]^plaintext[i]

qqqq20191203001.xml文件的大小是89k，实行不完全加密。对文件本身来讲是按块进行加密的，块的大小以k为单位，可酌情设定。假如n设为8，对于每个(8)k块的开始部分会被加密，小于(8)k的文件，开始部分会被加密。加密的种子密钥是给定的一定长度(奇数)的字符串，然后按照变换算法初始化一定长度的数组，该数组作为加密密钥，分别和相应位置的明文进行异或运算形成加密密文，然后写入dob文件。在每一个文件(包括图片，视频或其他的非ASCII文件)的开头(十六进制表示)实际上都有一片区域来显示这个文件的实际用法，这就是文件头标志，因此对文件的头部进行加密，也隐藏了文件的类型，增加了破解难度。下面表格1的第三行的C部分表示加密部分。

表1

步骤30存储写入dob文件的目录、位置、大小、检索信息，并缓存目录信息，以提高检索性能；

写入dob的文件，为了检索的需要，要存储必要的检索信息。根据实际情况，要能够保证文件和后缀的唯一性，所以写入的主键是文件名和后缀名。写入的表名在步骤A已经确定，把文件的相关信息写入相应的表就可以了。文件的目录信息存储到表hfs_dir_record，文件的md5信息存储到表hfs_md5_record，文件的检索信息存储到表hfs_file_record_xxxx

其中xxxx从0000-9999，这些表创建视图hfs_file_record_view来进行统一检索。

目录表hfs_dir_record的结构如下表2

表2

DIRNAME为存储的目录名，TABLENAME为存储的表名，CREATEDATE为文件的写入时间，MODIFYDATE为文件的最后修改时间，FLAG是目录的标志，FLAG＝0表示可用，FLAG＝-1的时候，表示当前记录被逻辑删除。NODEID是该虚拟目录的文件存储的节点。

该表的具体数据如下表3所示，可以看出上面的HFMS\CCNDX虚拟目录因为已经存在，没有再生成新的记录，看NODEID的值为5，也就是该文件存储在了5号节点。

表3

DIRNAME	TABLENAME	CREATEDATE	MODIFYDATE	FLAG	NODEID
						HFMS\CCNDX	Reserved Field	2019-11-26 17:30:35	2019-11-26 17:30:35	0	5
HFMS\CCNDX\2001	Reserved Field	2019-11-26 17:37:46	2019-11-26 17:37:46	0	5
						HFMS\CCNDX\2001\01	Reserved Field	2019-11-26 17:38:43	2019-11-26 17:38:43	0	5
HFMS\CCNDX\2001\02	Reserved Field	2019-11-26 17:39:05	2019-11-26 17:39:05	0	5
						HFMS\CCNDX\2001\03	Reserved Field	2019-11-26 17:40:38	2019-11-26 17\|40:38	0	5
HFMS\CCNDX\2001\04	Reserved Field	2019-11-27 17:30:45	2019-11-27 17:30:45	0	5
						HFMS\CCNDX\2001\05	Reserved Field	2019-11-27 17:32:08	2019-11-27 17:32:08	0	5
HFMS\CCNDX\2001\06	Reserved Field	2019-11-27 17:35:37	2019-11-27 17:35:37	0	5
						HFMS\CCNDX\2002	Reserved Field	2019-11-28 18:35:14	2019-11-28 18:35:14	0	5
HFMS\CCNDX\2002\01	Reserved Field	2019-11-28 18:35:27	2019-11-28 18:35:27	0	5

表4是文件MD5存储表结构：

表4

FILENAME为存储的文件名，FILESIZE是文件大小，FILETYPE是文件后缀，DIRNAME为存储的目录名，CREATEDATE为文件的写入时间，MODIFYDATE为文件的最后修改时间，MD5是计算的文件的MD5信息，FLAG是文件的标志，FLAG＝0的时候，data是文件偏移；FLAG＝1的时候，data是指向实体文件的路径，FLAG＝-1的时候，表示当前记录被逻辑删除，data上述两种情况都有可能，NODEID是文件存储的节点号。

表5是文件的MD5表的部分信息，通过文件的MD5信息来杜绝同样的文件内容以不同的文件名写入造成存储空间的浪费，也就是同样的文件内容，以不同的文件名存储，实际文件只写入一次。

表5

表6是文件存储信息表结构：

表6

FILENAME为存储的文件名，FILESIZE是文件大小，FILETYPE是文件后缀，DIRNAME为存储的目录名，CREATEDATE为文件的写入时间，MODIFYDATE为文件的最后修改时间，MD5是计算的文件的MD5信息，FLAG是文件的标志，FLAG＝0的时候，data是文件偏移；FLAG＝1的时候，data是指向实体文件的路径,FLAG＝-1的时候，表示当前记录被逻辑删除，data上述两种情况都有可能，NODEID是文件存储的节点号。

表7是表hfs_file_record_0002的部分内容，当下载文件QQQQ20191203001.XML时，通过文件名和后缀在MD5表获得相应记录，取得文件存储的节点，并取得该文件在dob文件的偏移量(8463)和文件大小(90989)，在目标节点，根据文件名(QQQQ20191203001)计算hash值得到表的序号0002，拼接得到dob文件名(HFS_FILE_RECORD_0002)，然后打开dob文件，并定位到dob文件的偏移(8463)位置，从dob文件读取90989字节的内容，并进行解密处理，处理出来的内容就是下载的文件内容。

表7

MD5重复时，MD5表写入数据信息的变化；把QQQQ20191203001.XML改名为QQQQ201912030012.XML,然后上传到HFS的HFMS\CCNDX目录，MD5表检索结果为如表8：

表8

可以看出前2条记录的不同点在于FLAG和DATA字段的值不同，FLAG＝1的时候，data是指向实体文件的路径，DATA的值是HFMS\CCNDX\QQQQ20191203001.XML。也就是下载文件QQQQ201912030012.XML的时候读取的是HFMS\CCNDX\QQQQ20191203001.XML的内容。

MD5重复时，文件信息表写入数据信息的变化。

根据步骤10的说明，文件QQQQ201912030012.XML的信息存储在HFS_FILE_RECORD_0024表，检索该表的信息如下，为了更直观的观看，检索了文件信息视图，和HFS_FILE_RECORD_0002表的记录一起显示更直观如表9。

表9

从表9可以看出，2条记录的不同点在于FLAG和DATA字段的值不同，FLAG＝1的时候，DATA字段的值是指向实体文件的路径，DATA的值是HFMS\CCNDX\QQQQ20191203001.XML。也就是下载文件QQQQ201912030012.XML的时候读取的是HFMS\CCNDX\QQQQ20191203001.XML的内容。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于文件的分布式存储方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于文件的分布式存储方法，其特征在于，所述步骤A具体包括：

首先计算写入文件的MD5值，并按照该MD5值在MD5表检索信息，如果该MD5的记录已经存在，表示同样的文件内容已经写过一次，则本次文件内容不再写入；

判断目录是否存在，如果目录不存在，则把新的目录信息写入目录表；

判断已经存在的文件名是否为本次上传的文件名，如果是，判断目录名是否一致；如果目录名和文件名都一致，则为重复写入，返回；如果目录名和文件名不一致，写入虚拟文件信息到数据表即MD5信息写入MD5表，文件信息写入文件信息表。

3.如权利要求1所述的基于文件的分布式存储方法，其特征在于，所述步骤B中：读取写入的文件内容并进行加密包括：对大于(n)k的文件，每个(n)k块的开始部分会被加密，小于(n)k的文件，则开始部分会被加密。

4.如权利要求1所述的基于文件的分布式存储方法，其特征在于，所述步骤C中：文件的目录信息存储到表hfs_dir_record，文件的md5信息存储到表hfs_md5_record，文件的检索信息存储到表hfs_file_record_xxxx，其中xxxx从0000-9999，这些表创建视图hfs_file_record_view来进行统一检索。