CN103034814B

CN103034814B - 一种数据存取方法

Info

Publication number: CN103034814B
Application number: CN201210538809.0A
Authority: CN
Inventors: 马然; 姜晓红; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2015-10-21
Anticipated expiration: 2032-12-11
Also published as: CN103034814A

Abstract

本发明公开了一种数据存取方法，该方法以字节为单位处理原始数据，根据需要灵活拆分其字节值，假设拆分为k(k＞1)份；引入数据冗余策略进一步处理拆分后的数据，使得k份数据最终转换为n(n＞k)份冗余拆分数据，支持分布式存储；需要访问原始数据时，本方法能够以n份拆分数据中的任取k份重建原始数据，保证数据的完整和准确，同时数据冗余的存在也有效解决了某些拆分数据发生损坏等因素导致的不可用问题。此外，重建原始数据至少需要获得k份拆分数据，并且获悉算法和相关参数，使得来自外部攻击者或者存储服务提供商的安全威胁被极大降低；故本发明能够有效提高数据存储的私密性和可用性，且非常适用于现下广泛的分布式存储模式。

Description

一种数据存取方法

技术领域

本发明属于数据存取技术领域，具体涉及一种数据存取方法。

背景技术

存储方式的发展经过了内置存储时代、直连存储时代、网络存储时代一直到集群存储时代的变迁。其中在网络存储时代涌现出了NAS(网络连接存储)、SAN(存储区域网络)等存储技术，而在现如今的集群存储时代，高可用性集群、负载均衡集群、高性能集群等各种类型的集群也各具特点和优势，同时分布式存储的方式也逐渐流行开来。

分布式的存储方式一般可以根据存储的数据类型划分为结构化、半结构化和非结构化的存储；或者根据存储系统的体系架构划分为主从式和对等式(即P2P形式)的存储。主从式的存储系统也有结构化的如Oracle集群等，半结构化的如BigTable(由Google开发的半结构化分布式存储系统)、Hbase(BigTable的开源实现版本)等，非结构化的如GFS(Google File System，由Google开发的分布式文件系统，主要针对非结构化的数据)和HDFS(Hadoop Distributed FileSystem，GFS的开源实现版本)等。但这些分布式存储系统往往在私密性和可用性上存在一些问题。众多周知，数据存储过程中的数据私密性非常重要，原始数据泄漏对用户的损害极大，同时由于服务器宕机等原因造成的存储节点拒绝服务或者数据损坏造成的无法读取等问题将严重影响用户数据的可用性。所以，数据存储的私密性和可用性是存储方法和存储系统必须重点关注的两个问题。

针对以上两点，目前比较常见的策略是一种显式安全策略，一般是将数据存储在单一的服务器上，并且进行适当的备份。在这种情况下，用户只需要录入密码进行安全认证来获取数据。因此，需要密码具有较高的复杂程度以防破解，并且一般需要用户频繁的更换密码。但是用户往往希望自己的密码简单好记，如此反而容易成为攻击者的目标。另外，由于目前大多数存储系统不提供数据加密模块，所以需要用户在向存储系统提交数据之前自己进行加密。常用的加密算法如MD5(Message-Digest Algorithm 5，信息-摘要算法5)、PGP(SecureHash Algorithm，安全哈希算法)、RSA(基于数论的非对称性加密算法)等。这种方式对用户要求较高，也增加了用户使用的时间成本等。并且用户数据往往需要长期在线存储，这种情况下，目前能够为数据提供足够安全性的密钥可能在一段时间之后就不再可靠。基于以上种种原因，对数据的在线存储服务来说，以显式安全策略为基础的安全体系在很大程度上已经不再适用。

发明内容

针对现有技术所存在的上述技术缺陷，本发明提供了一种数据存取方法，兼具高私密性和高可用性。

一种数据存取方法，包括如下步骤：

数据存储：

(1)将用户输入的数据的每个字节通过根式拆分转换成k维特征向量；k为大于1的自然数；

(2)构建n×k维的中间矩阵，根据中间矩阵使所述的k维特征向量扩充为n维冗余向量，并保存中间矩阵；n为自然数且n大于k；

(3)将每个字节对应n维冗余向量中的n个元素值分别写入n个文本文档中，进而将这n个写有m个元素值的文本文档分别存储于n个服务器中，m为输入数据的字节个数；

数据读取：

(a)从n个服务器中任选k个服务器，并从中获取对应的k个文本文档；读取这k个文本文档中的每个元素值，重建得到m个与字节对应的k维中间向量；

(b)根据所述的k维中间向量和中间矩阵，构建k×k维的还原矩阵；根据还原矩阵使所述的k维中间向量还原成k维字节向量；

(c)依次对每个字节对应的k维字节向量进行模合并，得到每个字节的字节值，从而还原得到用户输入的数据。

所述的步骤(1)中，将每个字节通过根式拆分转换成k维特征向量的方法为：首先，构建k次多项式如下：

x^k+a_k-1x^k-1+a_k-2x^k-2+…+a₁x+a₀＝0

然后，将以上k次多项式转化为以下表达式：

(x-r₁)(x-r₂)…(x-r_k)＝0

其中，r₁～r_k为该k次多项式的k个根，则r₁×r₂×...×r_k＝a₀；

最后，令任一字节的字节值为a₀，并随机生成r₁～r_k-1的值，进而求得rk；使r₁～r_k为向量的k个元素，则得到的向量即为该字节对应的k维特征向量；依此遍历数据的每个字节。

所述的步骤(2)中，构建n×k维的中间矩阵的方法为：建立一n×k维的矩阵，随机生成该矩阵中的每个元素值，且保证该矩阵的各行向量线性无关，则该矩阵即为中间矩阵。

优选地，所述的中间矩阵采用Vandermonde(范德蒙德)矩阵；构造简便。

所述的步骤(2)中，通过公式C＝AR使k维特征向量扩充为n维冗余向量；其中，C为n维冗余向量，R为k维特征向量，A为中间矩阵。

所述的步骤(3)中，将每个字节对应n维冗余向量中的n个元素值分别写入n个文本文档中的方法为：对于数据中的第i字节，将该字节对应n维冗余向量中的n个元素值分别写入n个文本文档中的第i输入位；依此按数据中字节的顺序，遍历每个字节对应的n维冗余向量，得到n个写有m个元素值的文本文档，i为自然数且1≤i≤m。

所述的步骤(a)中，读取k个文本文档中的每个元素值，重建m个k维中间向量的过程如下：对于数据中的第i字节，读取k个文本文档中该字节对应输入位上的k个元素值，使这k个元素值为向量的k个元素，则得到的向量即为第i字节对应的k维中间向量；依此遍历文本文档中每个输入位上的元素值，得到m个与字节对应的k维中间向量。

所述的步骤(b)中，构建k×k维的还原矩阵的方法为：从中间矩阵中提取k个行向量，所述的k个行向量与k维中间向量中的k个元素一一对应；根据k维中间向量中k个元素的顺序，将这k个行向量组合成k×k维的还原矩阵。

所述的步骤(b)中，通过公式S＝B^-1D使k维中间向量还原成k维字节向量；其中，D为k维中间向量，S为k维字节向量，B为k×k维的还原矩阵。

所述的步骤(c)中，对每个字节对应的k维字节向量进行模合并的方法为：对于任一字节对应的k维字节向量，使该k维字节向量中的k个元素值相乘，得到的数值即为该字节的字节值。

存储操作中的k维特征向量与读取操作中的k维字节向量，这两个向量中的元素相同，但排列顺序不同。

本发明具有以下有益效果：

(1)高私密性：本发明存储节点上保存的是处理后的数据，而非原始数据直接存储，同时无需进一步加密。拆分结果本身并不具备任何价值，只有获取到足够多的拆分结果，并且经过逆向处理，才能还原用户的原始数据。在本发明方法中，原始数据的重建需要一定数量(不低于k)的拆分结果，而原始数据的拆分策略(有限域、多项式以及中间矩阵的信息)、拆分结果的存储位置等信息在重建过程中缺一不可，算法的复杂性和灵活性也使得非法攻击和获取用户数据的机率极低。通过本发明的安全机制，能够有效的减少来自外部攻击者或者存储服务提供商的安全威胁，降低原始数据泄漏的机率，增强数据存储的私密性，并且非常适用于现下应用广泛的分布式存储模式。

(2)高可用性：在本发明方法中，由于数据冗余策略的引入，原始数据的重建过程无需全部拆分结果而只需其中部分即可完成；同时，多份拆分结果支持不同地域、不同节点间的分布式存储；上述两个特点极大的增强了本发明的灵活性，与其他加密或非加密的存储方法相比，本发明方法能够有效避免一部分存储节点不可用而导致的无法获取数据块的问题，或者一部分拆分数据发生损坏或丢失的问题，能够有效减少存储节点拒绝服务或者数据丢失等安全威胁，提高数据质量，增强数据的可用性和完整性。

附图说明

图1为本发明方法数据拆分的示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

一种数据存取方法，包括如下步骤：

数据存储：

(1)将用户User输入的数据Data的每个字节通过根式拆分转换成5维特征向量；

首先，构建5次多项式如下：

x⁵+a₄x⁴+a₃x³+a₂x²+a₁x+a₀＝0

然后，将以上5次多项式转化为以下表达式：

(x-r₁)(x-r₂)(x-r₃)(x-r₄)(x-r₅)＝0

其中，r₁～r₅为该5次多项式的k个根，则r₁×r₂×r₃×r₄×r₅＝a₀；

最后，令任一字节的字节值(0～255)为a₀，并随机生成r₁～r₄的值，进而求得r₅；使r₁～r₅为向量的5个元素，则得到的向量即为该字节对应的5维特征向量；依此遍历数据的每个字节。

(2)构建10×5维的中间矩阵；

建立一10×5维的矩阵，随机生成该矩阵中的每个元素值，且保证该矩阵的各行向量线性无关，则该矩阵即为中间矩阵；

为了构造的简便，本实施方式采用Vandermonde矩阵作为中间矩阵，其形式如下：

A = [\begin{matrix} 1 & x_{1} & x_{1}^{2} & x_{1}^{3} & x_{1}^{4} \\ 1 & x_{2} & x_{2}^{2} & x_{2}^{3} & x_{2}^{4} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ 1 & x_{10} & x_{10}^{2} & x_{10}^{3} & x_{10}^{4} \end{matrix}]

根据中间矩阵通过公式C＝AR使5维特征向量扩充为10维冗余向量，并保存中间矩阵；其中，C为10维冗余向量，R为5维特征向量，A为中间矩阵。

公式C＝AR可用如下矩阵形式来表示：

[\begin{matrix} 1 & x_{1} & x_{1}^{2} & x_{1}^{3} & x_{1}^{4} \\ 1 & x_{2} & x_{2}^{2} & x_{2}^{3} & x_{2}^{4} \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot & \cdot & \cdot \\ 1 & x_{10} & x_{10}^{2} & x_{10}^{3} & x_{10}^{4} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ \cdot \\ \cdot \\ \cdot \\ r_{5} \end{matrix}] = [\begin{matrix} c_{1} \\ c_{2} \\ \cdot \\ \cdot \\ \cdot \\ c_{10} \end{matrix}]

(3)将每个字节对应10维冗余向量中的10个元素值分别写入10个文本文档Txt.1～10中，如图1所示；其中：

对于数据中的第i字节，将该字节对应10维冗余向量中的10个元素值分别写入10个文本文档中的第i输入位；依此按数据中字节的顺序，遍历每个字节对应的10维冗余向量，得到10个写有m个元素值的文本文档，i为自然数且1≤i≤m，m为输入数据的字节个数。

进而将这10个写有m个元素值的文本文档Txt.1～10分别存储于10个服务器中。

数据读取：

(a)从10个服务器中任选5个服务器，并从中获取对应的5个文本文档(Txt.2、Txt.5、Txt.7、Txt.9、Txt.10)；读取这5个文本文档中的每个元素值，重建得到m个与字节对应的5维中间向量；其中：

对于数据中的第i字节，读取5个文本文档中该字节对应输入位上的5个元素值，使这5个元素值为向量的5个元素，则得到的向量即为第i字节对应的5维中间向量；依此遍历文本文档中每个输入位上的元素值，得到m个与字节对应的5维中间向量。

(b)根据所述的k维中间向量和中间矩阵，构建5×5维的还原矩阵：

从中间矩阵中提取5个行向量，且这5个行向量需与5维中间向量中的5个元素一一对应；根据5维中间向量中5个元素的顺序，将这5个行向量组合成5×5维的还原矩阵。

根据还原矩阵通过公式S＝B^-1D使5维中间向量还原成5维字节向量；其中，D为5维中间向量，S为5维字节向量，B为5×5维的还原矩阵。

公式S＝B^-1D可用如下矩阵形式来表示：

[\begin{matrix} s_{1} \\ s_{2} \\ s_{3} \\ s_{4} \\ s_{5} \end{matrix}] = {[\begin{matrix} b_{11} & b_{12} & b_{13} & b_{14} & b_{15} \\ b_{21} & b_{22} & b_{23} & b_{24} & b_{25} \\ b_{31} & b_{32} & b_{33} & b_{34} & b_{35} \\ b_{41} & b_{42} & b_{43} & b_{44} & b_{45} \\ b_{51} & b_{52} & b_{53} & b_{54} & b_{55} \end{matrix}]}^{- 1} [\begin{matrix} d_{1} \\ d_{2} \\ d_{3} \\ d_{4} \\ d_{5} \end{matrix}]

一般情况下，存储操作中的5维特征向量与读取操作中的5维字节向量，这两个向量中的元素相同，但可能排列顺序不同。

(c)依次对每个字节对应的k维字节向量进行模合并，其中：

对于任一字节对应的5维字节向量，使该5维字节向量中的5个元素值相乘，得到的数值即为该字节的字节值；依次遍历每个字节，从而还原得到用户输入的数据Data。

Claims

1.一种数据存取方法，包括如下步骤：

数据存储：

(1)将用户输入的数据的每个字节通过根式拆分转换成k维特征向量，k为大于1的自然数，具体过程如下：

首先，构建k次多项式如下：

x^k+a_k-1x^k-1+a_k-2x^k-2+…+a₁x+a₀＝0

然后，将以上k次多项式转化为以下表达式：

(x-r₁)(x-r₂)…(x-r_k)＝0

其中，r₁～r_k为该k次多项式的k个根，则r₁×r₂×…×r_k＝a₀；

最后，令任一字节的字节值为a₀，并随机生成r₁～r_k-1的值，进而求得r_k；使r₁～r_k为向量的k个元素，则得到的向量即为该字节对应的k维特征向量；依此遍历数据的每个字节；

(2)构建n×k维的中间矩阵，即建立一n×k维的矩阵，随机生成该矩阵中的每个元素值，且保证该矩阵的各行向量线性无关，则该矩阵即为中间矩阵；

根据中间矩阵通过公式C＝AR使所述的k维特征向量扩充为n维冗余向量，并保存中间矩阵，n为自然数且n大于k；其中，C为n维冗余向量，R为k维特征向量，A为n×k维的中间矩阵；所述的中间矩阵采用Vandermonde矩阵；

(3)将每个字节对应n维冗余向量中的n个元素值分别写入n个文本文档中：即对于数据中的第i字节，将该字节对应n维冗余向量中的n个元素值分别写入n个文本文档中的第i输入位；依此按数据中字节的顺序，遍历每个字节对应的n维冗余向量，得到n个写有m个元素值的文本文档，i为自然数且1≤i≤m；

进而将这n个写有m个元素值的文本文档分别存储于n个服务器中，m为输入数据的字节个数；

数据读取：

(a)从n个服务器中任选k个服务器，并从中获取对应的k个文本文档；读取这k个文本文档中的每个元素值，重建得到m个与字节对应的k维中间向量：即对于数据中的第i字节，读取k个文本文档中该字节对应输入位上的k个元素值，使这k个元素值为向量的k个元素，则得到的向量即为第i字节对应的k维中间向量；依此遍历文本文档中每个输入位上的元素值，得到m个与字节对应的k维中间向量；

(b)根据所述的k维中间向量和中间矩阵，构建k×k维的还原矩阵：即从中间矩阵中提取k个行向量，所述的k个行向量与k维中间向量中的k个元素一一对应；根据k维中间向量中k个元素的顺序，将这k个行向量组合成k×k维的还原矩阵；

根据还原矩阵通过公式S＝B^-1D使所述的k维中间向量还原成k维字节向量；其中，D为k维中间向量，S为k维字节向量，B为k×k维的还原矩阵；

(c)依次对每个字节对应的k维字节向量进行模合并，得到每个字节的字节值，从而还原得到用户输入的数据；即对于任一字节对应的k维字节向量，使该k维字节向量中的k个元素值相乘，得到的数值即为该字节的字节值。