CN106464486A

CN106464486A - 高效存储和无条件安全私有信息检索

Info

Publication number: CN106464486A
Application number: CN201580019501.7A
Authority: CN
Inventors: 丹尼尔·奥戈; 弗朗索瓦丝·莱维-迪特-韦海; 阿卜杜勒拉蒂夫·希克法
Original assignee: National Institute Of Computer And Automation; Alcatel Optical Networks Israel Ltd
Current assignee: National Institute Of Computer And Automation; Alcatel Optical Networks Israel Ltd
Priority date: 2014-04-14
Filing date: 2015-04-14
Publication date: 2017-02-22
Also published as: JP2017511552A; US10289862B2; WO2015158733A1; US20170032142A1; EP2933943A1

Abstract

一种在多个远程服务器(SP1,...,SPI+1)中储存一组原始数据(E1,...,En)以及从多个远程服务器(SP1,...,SPI+1)中检索一组原始数据(E1,...,En)的方法，包括编码步骤，该步骤包括从所述一组原始数据(E1,...,En)生成一组编码数据(S1,...,SN)；储存步骤，该步骤包括将所述一组编码数据(S1,...,SN)储存到所述多个远程服务器(SP1,...,SPI+1)中。所述多个服务器中的每一个服务器(SP1,...,SPI+1)仅储存所述一组编码数据(S1,...,SN)的各自部分，并且所述方法包括生成表(T1,T2)的步骤，表(T1,T2)表明所述一组编码数据(S1,...,SN)的哪个各自部分储存在所述多个远程服务器(SP1,...,SPI+1)中的哪个服务器中。

Description

高效存储和无条件安全私有信息检索

技术领域

本发明涉及在数据存储服务器中储存信息、对数据库进行查询和对这样的查询保密。

背景技术

现在许多文件和数据库储存在外包数据存储服务器中。这个趋势随着许多服务和公司的信息系统的云化进一步加强。虽然这样的外包数据库维护成本低并且检索最新信息很高效，但是就安全或保密而言它们可能构成显著风险。已经提出了一些解决方案以便确保在多个云端储存外包数据的安全，但是它们没有解决保密问题。实际上通过访问数据库，储存数据库的实体学习查询者或用户的查询，这可能是一个问题，如果用户的意图要保密的话。例如，查询股票市场数据库以获得某些股票的当前市场价值的投资者可能不希望透露他们对股票的兴趣，因为这会无意间影响股票的价格。可替代地，一些公司可能想要寻找某些专利但不想透露专利标识。

私有信息检索——PIR——方案是密码协议，其允许客户从外包数据库或云端检索记录，同时完全向数据库所有者隐藏被检索的记录的标识。有两种PIR，信息理论PIR或计算PIR。后者提供较弱的安全担保，因此我们集中讨论信息理论PIR，该PIR提供绝对担保，确保服务器不会得到关于用户想要的什么的信息。信息理论PIR只在多服务器设置中才可能，这些服务器之间存在一些复制。有大量的工作团体提供对这个问题的解决方案，这些解决方案基于编码理论并且更具体而言基于本地可解码的代码或LDC。但是，目前的解决方案要求许多复制。基本上，如果I是LDC的位置，那么整个数据库需要首先编码，这导致数据库尺寸增大的第一因子，之后整个被编码的数据库需要在I个不同的服务器上复制I次。

发明内容

假设我们有一个数据库，由n个元素构成，例如E₁,...,E_n。当前解决方案以N个符号S₁,...,S_N的代码字编码数据库，N＞n并且之后将已编码数据库的I个副本储存到I个不同的服务器上，其中I是代码所在的位置。为了在不透露的情况下检索符号S_i，用户必须从每一个服务器检索一个符号，这些符号都不是S_i。用户因此获得I个符号并且通过本地解码可计算S_i。被检索的符号不是随机的，它们是根据解码算法选择的，这表明为了能够计算S_i，必须检索符号S_j1、……S_jI。为了确保给定的符号总是可以被检索到，现有的协议在所有的服务器上储存所有的符号，这意味着整个长度为N的代码字复制I次。

要解决的技术问题是允许将一些文件的集合或数据库的集合储存在多数个外包存储实体或云端上，同时为用户提供这样的可能性，即从数据库查询一条信息，而不透露他们的查询，具体而言是不把他们查询的这条信息透露给服务器或云端，同时减少当前解决方案的存储开销。

由于有了本发明，通过权利要求1的主题实现这个目标。

附图说明

本发明的其他特征、目标和优点将在下文参照附图的具体描述中出现，在该附图中：

图1描绘了根据本发明的实施方式的存储和查询组织。

图2a和2b描绘了根据本发明的实施方式的查询和超平面。

具体实施方式

在所述附图中，表示了由n个元素E₁,...,E_n组成的数据库。

在当前实施方式中，以这样的方式组织并放置多数符号，以便只有N/(I+1)个符号储存在每个服务器上，这样总共储存N个符号，并且在解码算法上施加额外的小的限制，以确保它从每个服务器要求一个符号。更精确而言，所述代码字符号或编码数据库属于I+1有限基数域上的m维矢量空间。这个空间里的超平面是m-1维子空间。我们将符号布置在(I+1)个超平面上，用户或客户或查询者或可能是代理将根据一条与超平面的方向横交，也就是不平行，的一条线来请求符号。该益处具有显著重要性：它将存储开销减少了I+1倍。

(I,d)-本地可解码的代码允许通过观察其可能毁坏的编码的仅仅I个随机选择的坐标而可能地检索特定的消息的符号，以这样的方式以便所述解码仍然有超过2/3的可能性成功，即使编码数据的一小部分d个符号毁坏。那么I是代码的位置。

在附图上，客户或用户或顾客以参考标号C表示。存储提供商，例如云存储提供商，由参考标号SP1、SP2……表示，查询者Q想要访问储存的数据。还示出了代理B1，B2。这样的代理不是必要的，其作用是促进一些操作或者代表C或Q执行它们。在当前的实例中，客户C已经将数据存储外包给SP：SP1、SP2、SP3和SP4。查询者Q想要访问一部分储存的数据。出于保密原因或为了保护他们的隐私，Q不想让SP知道它访问了哪些数据或信息。一旦储存，SP为Q提供API，以便在此基于标识符检索数据，所述标识符在具有数个数据库的情况下是数据库名称的串联并且数据库中是元素指数的串联。SP不实施允许私有信息检索的具体机制，它们是传统存储提供商。代理B1，B2例如要么在信任他们的实体组织中被信任，要么在根据他们执行的任务的独立实体中被信任。在此储存信息的实施以下面的方式实施。在第一步，客户C使用合适的编码算法编码由n个元素E1,...,En组成的数据库，一种本地可解码的代码，例如多重代码。n元素数据库以N个符号S1,...,SN编码，N＞n。这个第一步也可由第一代理B1执行，第一代理B1必须被C所信任，因为它不会将信息透露给SP。例如I为本地可解码的代码的位置的值，N个符号被划分为(I+1)组，每组包含对应整个空间的一个超平面的符号，导致组G1,...,GI+1。可选择地，这个操作可由同样的被信任的代理B1执行。这个步骤的输出不管是由客户C还是代理B1实施，都是表明在哪一组可发现符号Si的函数或表T1。在附图中，本地可解码的代码具有位置3。

之后每一组符号储存在服务提供商SP上。SP的选择可取决于许多参数，诸如成本、等待时间、可靠性等。考虑到这些方面，分派和存储可由第二代理B2照看，第二代理B2只需要返回分组指数和存储提供商之间的映射。这个映射通常在I+1行的表T2中示出，其中行数i表示对应Gi的存储提供商等。代理B2不需要被客户C完全信任，它甚至可以是由其中一个服务提供商提供的服务。客户C仅有利地核实表T2中所有的服务提供商SP互相不同，这样在后面的步骤避免共谋。

信息的查询在此以下面的方式实施。当查询者Q想要检索给定的符号，它首先需要检索数据库的名称。数据库的名称通常是公共知识，但是如果客户C想要控制对他的信息的访问，客户C可首先通过使这个知识保密或将这个任务委派给受信任的代理B1迫使查询者请求许可。

查询者的兴趣是Si，但是他需要将他的查询表达为由解码算法确定的一组I+1个查询Sj1,...,Sj(I+1)。更精确而言，它随机选择方向，但该方向不平行于超平面方向，并且之后计算他必须查询的点Sj1,...,Sj(I+1)。这个计算可由被查询者Q信任的代理B3执行。

查询者Q或代理B3之后需要获得T1，以确定每一个Sji属于哪个组并且获得T2以了解每个组储存在哪里。查询者或代理B3之后从对应的SP取得Sj1,...,Sj(I+1)并且在本地对它们解码以获得Si。这个方法的一个优点是该方法适用于任何基于多重代码以及可假定的任何本地可解码的代码的PIR方案。该协议确保每一个单个服务器不会得到关于查询者感兴趣的元素的标识的信息。与现有解决方案相比，所述方法的总存储开销减少至少I+1倍，其中I是解码方法的位置。通过微调参数，可能允许从许多SP的缺陷中恢复，这意味着所述方法具有固有的错误校正能力和故障恢复能力的特点。微调参数还可允许考虑多个SP的共谋同时不损害安全性，在这个案例中也就是查询的保密。只要C和Q不提供信息给服务器，代理B1和B3可分别代表它们执行计算。代理B2很有趣，因为它可以决定SP的选择而不需要出于安全角度被信任。

从所述符号中，可能通过特定的解码机制恢复原始文件。

在当前实例中的查询阶段，查询者Q发送查询给代理B3，代理B3将其表达为数个符号，从代理B1请求表T1，从代理B2请求表T2并且之后从对应的SP请求符号，所述对应在此可能是由于所述表而存在。在接收被请求的符号之后，代理B3在本地对它们解码并且将被请求的符号发送回查询者Q。

根据当前描述的本发明的实施方式的多个精确方面，

环绕空间中的代码将长度为k的矢量编码为长度为n代码矢量或代码字，n﹥k。解码的问题是在周围空间寻找接近元素y的代码字。正式地，给出代码C∈∑ⁿ，距离d()，对于给定的y＝(y₁,...y_n)∈∑ⁿ，必须找出代码字c∈C，这样d(c,y)是小的。在我们的设置中，距离d(x,y)是汉明距离，即指数i的数目，其中x_i≠y_i。

本地可解码的代码，简写为LDC，允许高效的次线性时间解码。更精确而言，l-查询LDC允许通过仅观察其可能毁坏的编码的l＜＜k个随机选择的坐标而可能地恢复任何消息的符号。虽然LDC在90年代早期出现在PCP文学中[？]，它们第一次正式的定义是由于2000年的Katz和Trevisan[5]。查询的符号的数目l为查询复杂性，我们在此也称为位置。LDC最老的等级是上的雷德密勒码，其代码字为总程度最大为d的m变量多项式在的点的赋值。形式上地：

A代码C：Δ^k→∑ⁿ为(l，δ)-本地可解，如果存在随机解码算法A，这样

1.如果x∈Δ^k且y∈∑ⁿ，d(C(x),y)﹤δn，对于所有的i∈[k]，我们有

其中概率通过所有的随机硬币抛掷A获得。

2.A最多向y做出l次查询。

在此A^y意为A是访问y的给定查询。

在想要可能地恢复任意代码字符号而不是仅仅信息符号的情况下，有下面的算法

A代码C：Δ^k→∑ⁿ为(l,δ)-本地自可校正(LCC)，如果存在随机解码算法A，这样

1.如果代码字c∈∑ⁿ且y∈∑ⁿ，d(c,y)﹤δn，对于所有的i∈[k]，我们有

其中，概率通过所有随机硬币抛掷A获得。

2.A最多向y做出l次查询。

注意到可从线性LCC容易地构建LDC[9]。

没有已知的LDC或LCC构建同时将l和长度n最小化。因此主要问题是在一个参数固定的情况下将另一个参数最小化。就这个方面而言，存在具有持续的查询复杂性l≥3的次指数长度代码的构建[8]。在另一面，恒定速率LDC特征为l，已知l在Ω(logk)和之间，后者的界限具有明显的构建。主要结果是，在出现恒定的错误部分(由于代码距离的函数)的情况下，具有次线性查询复杂性的高速(也就是﹥1/2)本地自可校正代码的构建。那些代码被称为多重代码，在2011年由Kopparty，Saraf和Yekhanin介绍而来[6]。他们通过估算高度多变量多项式以及他们的偏导数直到某一阶数而概括了雷德密勒码。使用高度多项式提高了速率，而估算他们的偏导数弥补了距离的损失。

私有信息检索的问题在1995年由Chor，Goldreich，Kushilevitz和Sudan介绍[2]。PIR协议是密码协议，其目的是保护经由服务器访问公共数据库的用户的隐私，在这个意义上，它使得用户可能查询特定的数据库记录而不透露给服务器他想检索哪项记录(又称为查询匿名)。我们在此讨论的是与计算安全PIR相反的信息理论PIR[7]。在IT PIR设置中，服务器不会获得关于用户兴趣的记录标识的信息，即使它具有无限计算的权力。在[2]中示出了当访问单个数据库时，为了完全在信息理论意义上确保用户的隐私，需要下载整个数据库，这导致了O(n)的通信复杂性，n是数据库的位长。因此他们介绍了这样的情形，在这些情形中，数据库在数个，例如l个服务器之间复制，对于l≥3，提出通信复杂性的方案。从那时开始已经调查多服务器设置，并且到目前为止最好的通信复杂性为

Katz和Trevisan[5]介绍了一种非常接近本地可解码的代码的概念：平稳代码概念。平稳代码的想法是解码器不能太频繁读取同样的指数：非正式地，对于固定的l和c,在(l,c)-平稳代码中，解码器至多从有效代码字中查询l个指数，不能查询指数超过c/m次。在[5]中，示出了(l,δ)-LDC为(l,c＝l/δ)-平稳代码。

为了实现查询的信息理论保密，在代码字(或接收的字)坐标中进行统一的查询分布是我们在PIR设置中需要的。作为LDC核心特征的位置，以及在所有已知的LDC构建中由本地解码算法A做出的查询是均匀分布这个事实使得LDC应用到PIR方案中非常自然。下面的定理描述了它是怎样正式工作的。

还注意到PIR方案可用来以最好的渐进码长度建立LDC。事实上，如[1]中引用的，“任何信息理论PIR协议可转化为相关高效的LDC”。

我们将数据库模拟为长度为k的Δ-ary串x。l-服务器PIR方案涉及l个服务器S₁,...,S_e，每一个都包含同样的数据库x，以及知道k并且想要在不透露任何关于i的信息给服务器的情况下检索一些值x_i，i∈[k]的用户。

l-服务器p-PIR协议是三重(Q,A,R)算法，运行如下：

用户抛掷随机硬币并获得随机字符串s；之后调用Q以生成l元组查询：(q₁,...,q_e)＝Q(i,s)。

对于1≤j≤l，用户发送q_j到服务器S_j。

每一个S_j响应a_j＝A(j,x,q_j).

用户通过应用重建算法R(a₁,...,a_l,i,s)恢复x_i。

正确性：用户以≥P的概率恢复x_i。

保密性：每一个服务器单独地都不会得到关于i的信息。换句话说随机变量Q(i,’)_j对于所有的i∈[k]都是相同的。

注意到Yekhanin[8]考虑到三重算法(Q,A,C)是非统一的，因此长度k被作为建议给出。

假设存在l-查询服务器本地可解码代码C:Δ^k→∑ⁿ，其中，每一个解码器查询在一组代码字坐标上均匀分布。那么存在l-服务器1-PIR协议，O(l log(n|∑|))通信访问数据库x∈Δ^k。

证明：如在定理中给出LDC C:Δ^k→∑ⁿ，可构建出下面的PIR协议：

(预处理)：对于1≤j≤l，服务器S_j将以C编码x。

用户抛掷随机硬币并调用本地解码算法，以便生成(q₁,...q_l)∈[n]^l，s.t.x_i可从{c(x)_qj}_1≤j≤l中计算。

对于1≤j≤l，用户发送q_j∈[n]到服务器S_j。

每一个S_j响应c(x)_qj∈∑。

用户应用本地解码算法C恢复x_i。

这个协议具有定理中要求的通信复杂性。此外，由于用户使用非损坏输入{c(x)_qj}_1≤j≤l，应用本地解码算法，他以概率1检索x_i。解码器对于[n]上的查询的分布的均匀性确保协议的信息理论隐私。我们将在PIR情形下使用LDC，也就是多重代码。

考虑到m个未知数X₁,...,X_m，和m个正整数i₁,...,i_m，我们使用速记表示法。

X＝(X₁,...,X_m)

|i|＝i₁+…+i_m，

也就是我们使用加粗符号表示矢量、点等，并使用标准符号表示一维标量、变量等。一般而言，我们写多项式没有圆括号，并且当必须具体化未知数(各自点)的估值时，没有变量和Q(X)(各自Q(P))。

给定多指数i，并且以H(F,i)表示的F的第i个哈斯导数，是多项式中Zⁱ的系数，其中，Z＝(Z₁,...Z_m)。更具体而言，使F(X)＝∑_j>>0f_jX^j，那么

其中

考虑到矢量和基点P，我们考虑将F限制到线

其为单变量多项式，我们表示为这个多项式本身具有哈斯导数，我们得出下面的关系：

其中全部

考虑到具有q个元素的有限域我们将其列举如下：

我们以表示程度小于或等于d的多项式组，其具有的大小为我们列举中所有的点如下：

其中为m元组符号并且n＝q^m。我们使用下面的赋值映射将程度小于d的多项式F编码为长度为n的代码字c

F→(F(p₁),...,F(p_n))

并且第d次序的雷德密勒代码为

赋值映射ev将k个符号编码为n个符号，并且速率为R＝k/n∈[0,1]。A代码字c∈RM_d可以通过整数索引为：

c＝(c₁,...,c_n)

或以点索引为

c＝(cp₁,...,cp_n)

其中，c_j＝cp_i＝f(p_i)，

假定d﹤q，我们现在回想RM_d怎样如下实现l＝q-1的位置。

假设c＝ev(F)∈RM_d为代码字，并且c_j＝c_pj被查找。那么，本地解码算法随机选择非零向量并考虑通过P_j方向为V的直线D；

之后，点R₁,...,R_q-1作为查询发送，并且解码算法接收答案：

在没有出错的情况下，(y_R1，...，y_Rq-1)＝(c_R1，...，c_Rq-1)。现在

其中

将F限制在线D，其为程度小于或等于d的单变量多项式，也就是(c_R1，...，c_Rq-1)属于长度为q-1并且大小为d+1的雷德所罗门代码RS_d，并且(y_R1，...，y_Rq-1)为其噪声版。使用RS_d的解码算法，可以恢复F_P,V，并且之后发现为c_pj为c_pj＝F_P,V(0)。这个本地解码算法在图1中绘出。

这些代码的主要缺陷为d﹤q的条件，限制维数对于固定的字母表从而小的位置，当代码变长时，速率R＝k/q^m﹤1/m！会非常快地降为零。

为了获得具有更高速率的代码，我们需要求导阶数s﹥0和延伸的赋值概念。对于多指数i，具有多项式F的哈斯导数H(F,i)，这样|i|﹤s。指定我们在P点概括出赋值映射：

算法1雷德密勒码本地解码算法

要求：oracle访问y＝(y₁,...,y_n)，c＝ev(F)∈RM_d的噪声版

输入：j∈[n]，符号c_j的指数，在c中查找

输出：c_j＝c_pj＝ev_pj(F)

1：随机选择

2：考虑线

D＝{P_j+0.U,P_j+α₁.U,..,P_j+α_q-1.U}

＝{R₀,...,R_q-1}

3：发送R₁,...,R_q-1作为查询，

4：接收答案：y_R1,...,y_Rq-1.

5：识别(y_R1,...,y_Rq-1)作为雷德所罗门代码字的噪声版

c＝(F_P,V(α₁),...,F_P,V(α_q-1))

其中F_P,V在方程(6)中定义。

6：使用雷德所罗门解码算法恢复多项式R_P,V

7：返回R_P,V(0).

以及，给出方程(5)中的点的列举，整个赋值规则是

如在传统雷德密勒码的情况下一样，我们通过(c₁,...,c_n)＝(c_p1,...,c_pn)＝ev^s(F)来表示，也就是我们可考虑d﹤sq，对应的代码为

使用本地可解码的语言，我们有代码并且代码为-线性空间，其在上的大小其速率为

位置为

查询，如下。出于简化，在无错的情况下，我们仅调用解码算法。假设查找c_j＝c_pj，那么所述算法选择σ向量

对于每一个V_i,i＝1,...,σ，考虑穿过P_j的V_i方向的线：

对于每一个i，1≤i≤σ，所述算法输出对应于点R_i,1,...,R_i,q-1的查询，并且得到答案

在不出错的情况下，我们有

且，其中

使用适应于我们在附录中回想的多重情况[3]的雷德所罗门解码算法，可以恢复：

作为单变量多项式，即便发生了大量的错误。现在，从方程(2)，对于0≤t≤s-1，F_pj,vi第t个系数，给出哈斯导数的线性方程：

对于如上文的给定的t，对于给定的方向，在未知数H(F,v)(P_j),|v|＝t中，我们有线性方程V_i,1≤i≤σ。考虑所有的σ方向，我们得到σ方程的线性系统。解决这个问题给出了所有的t阶哈斯导数,H((F,v)(P_j),|v|＝t。对每一个t＝0,...,s-1，允许恢复ev^s(F,P_j)＝c_pj＝c_j。本地解码算法在图2中绘出。

[6]的解码算法实际上更加详细并且解决更多错误。但是，对于我们所关心的，简化版就足够了。

考虑我们示出怎样公平共享代码字

在l＝q个服务器上，使用几何结构。做法如下：考虑H为维数m-1的的-线性子空间。它可被看作是线性映射的内核

对于一些我们写作为仿射超平面的互斥联集

其中

对于坐标的排列，我们可以写

其中

现在考虑仿射线，其与所有的超平面横交。这是一条可由任何穿过P点的方向V给出的线，只要f_H(V)≠0：

那么，由于对于一些点Q₀,...,Q_q-1，我们有

D∩H_i＝{Q_i},i＝0,..,q-1

也就是线D与所有的超平面横交。现在，很容易看出只要在1的步骤2中选择的向量V不属于h，算法1就有效。算法2也一样，虽然它需要更多的细节来解释。

作为实例，考虑的-线性超平面h：

H＝{P＝(x₁,...x_m)|x_m＝0}，

那么，我们有

其中

假定被分离成可通过要求对于i＝1,..,q，为每一个服务器S_i提供C_Hi以便储存，并且必须使用横线进行本地解码来建立PIR方案。用户将首先选择σ横线D_i,i＝1,...,σ，其穿过点P_j，与请求的符号对应，并且在点D∩H_i查询每一个服务器S_i。在算法2中，主要且唯一的改变是确保所有的σ线实际上横穿被选择的超平面。

注意到位置代码的位置没有映射服务器的数目：虽然代码具有位置qσ，但是被请求的服务器的数目仍然为q。而查询的数目仍然为qσ，每个服务器接收σ次查询。

困难是在代码要求沿着每条线(q-1)次查询的意义上发生的。在我们的语境中，当请求P_i时，所有的σ线都必须穿过P_i。发送到代码字的请求对应于q-1个点，这些点不同于每条线上的P_i。使用我们的实例，对于一些i，假定P_j＝(x_i,...x_m)，其中x_m＝α_i。那么，没有查询必须被发送到储存已编码代码字的c_Hi部分的第i个服务器：第i个服务器将会知道在其所有指数中，它具有请求的指数。对于从q^m到q^m-1，保密性明显下降。

使用算法2的表示法，这个问题的一个解决方案是发送σ随机查询X_u，i，u＝1，...，σ到服务器S_i。这足够使服务器S_i混乱(图2)。

上面描述的协议可总结如下：

预处理阶段。用户，或任何被信任方

1.选择q,m,d,s，使用在上m个变量，程度≤d的多项式的次数s估值的多重代码，使得位长为k的原始数据x可被编码；即选择参数，使得；

2.将分离为q个超平面。

在图2a和2b，参数为q＝4,m＝3,s＝2,σ＝4。多重代码的查询用作LDC代码(a)，用在PIR方案(b)中，假定对应查询j的点P_j落在H₀超平面上。在PIR方案中，随机点X_1,0,...,X_4,0被发送到服务器S₀，以便向他隐藏他主持请求的指数的事实。出于可阅读性，没有展示所有点的名称。

3.使用多重代码编码数据x,导致代码字c＝ev^s(F)，其中，F系数代表原始数据x；

4.为每个服务器S_l赋予代码字的C_Hl部分，也就是H_l的坐标点上的c的限制。

协议。用户想要检索指数j∈[n]

用户选择σ线D_i，1≤i≤σ，与超平面横交，并且穿过点P_j；

1.对于1≤l≤q,l≠u，用户发送查询到服务器l。用户发送σ随机查询X_i,u i＝1,...,σ到服务器S_u，u满足D_i∩H_u＝P_j,i＝1,...,σ

2.对于1≤l≤q，服务器发送答案

3.用户之后进行到算法2中的步骤6到9，以检索

算法2多重雷德密勒码的本地解码算法

要求：oracle访问y＝(y₁,...,y_n)，c＝ev^s(F)∈m-RM_d的噪声版

输入：j∈[n]，符号c_j的指数，在c中查找

输出：

1：选择σ非零随机向量U₁，...，U_σ；

2：对于i＝1到σ

3：考虑线

D_i＝{P_j+0·U_i，P_j+α₁·U_i，...，P_j+α_q-1·U_i}＝{R_i，0，...，R_i，q-1}

4：发送R_i,1,...,R_i,q-1作为查询，

5：接收答案：y_i,R1,...,y_Ri,q-1,i＝1,...,σ.

6：识别(y_Ri,1,...,y_Ri,q-1)作为“雷德所罗门”代码字的噪声版

c＝(F_Pj,Vi(α₁),...,F_Pj,Vi(α_q-1))

其中F_Pj,Vi在方程(7)中定义。

7：使用“雷德所罗门”解码算法恢复多项式

8：结束

9：在未知数H(F,v)(P_j),|v|﹤s解决来自方程式(8)的线性系统：

返回

参考文献

[1]A.Beimel,Y.Ishai,E.Kushilevitz,and J.-F.Raymond.Breaking the n¹ ^/(2k-l)barrier for information-theoretic private information retrieval.InB.Chazelle,editor,Foundations of Computer Science,2002.Proceedings.The 43rdAnnual IEEE Symposium on,volume 59,pages 261-270,2002.

[2]B.Chor,O.Goldreich,E.Kushilevitz,and M.Sudan.Private informationretrieval.

Journal of the A CM,45(6):965-981,November 1998.Earlier version inFOCS'95.

[3]Peter Gemmell and Madhu Sudan.Highly resilient correctors forpolynomials.Information Processing Letters,43(4):1 69-1 74,September 1992.

[4]V.Guruswami and C.Wang.Linear-algebraic list decoding for variantsof reedsolomon codes.Information Theory,IEEE Transactions on,59(6):3257-3268,June 2013.

[5]Jonathan Katz and Luca Trevisan.On the efficiency of localdecoding procedures for error-correcting codes.In F.Yao and E.Luks,editors,Proceedings of the Thirtysecond Annual ACM Symposium on Theory of Computing,STOC'00,pages 80-86.ACM,2000.

[6]S.Kopparty,S.Saraf,and S.Yekhanin.High-rate codes with sublinear-time decoding.In Salil Vadhan,editor,Proceedings of the Forty-third AnnualACM Symposium

on Theory of Computing,STOC'11,pages 167-176,New York,NY,USA,2011.ACM.

[7]E.Kushilevitz and R.Ostrovsky.Replication is not needed:singledatabase,computationally-private information retrieval.In Foundations ofComputer Science,1997.Proceedings.38th Annual Symposium on,pages 364-373,October 1997.

[8]Sergey Yekhanin.Locally Decodable Codes and Private InformationRetrieval Schemes.Information security and cryptography.Springer,2010.

[9]Sergey Yekhanin.Locally Decodable Codes,volume 6 of Foundationsand Trends in Theoretical Computer Science.NOW publisher,2012.

Claims

1.一种在多个远程服务器(SP1,...,SP_I+1)中储存一组原始数据(E1,...,En)以及从多个远程服务器(SP1,...,SP_I+1)中检索一组原始数据(E1,...,En)的方法，所述方法包括编码步骤，该步骤包括从所述一组原始数据(E1,...,En)生成一组编码数据(S1,...,SN)；储存步骤，该步骤包括将所述一组编码数据(S1,...,SN)储存到所述多个远程服务器(SP1,...,SP_I+1)中，其特征在于，所述多个服务器中的每一个服务器(SP1,...,SP_I+1)仅储存所述一组编码数据(S1,...,SN)的各自部分，并且所述方法包括生成表(T1,T2)的步骤，表(T1,T2)表明所述一组编码数据(S1,...,SN)的哪个各自部分储存在所述多个远程服务器(SP1,...,SP_I+1)中的哪个服务器中。

2.根据权利要求1所述的方法，其特征在于，该方法包括步骤：将所述一组编码数据(S1,...,SN)划分成编码数据的子集，所述编码数据(S1,...,SN)的任何一对子集中的一个子集与在该对子集中的另一个子集没有相同的数据；以及将编码数据(S1,...,SN)的每一个子集储存到所述多个远程服务器(SP1,...,SP_I+1)的各自服务器中。

3.根据权利要求2所述的方法，其特征在于，该方法包括生成表(T1)的步骤，表(T1)表明哪个编码数据(S1,...,SN)放置在哪个子集(G1,..,GI+1)中。

4.根据权利要求2或权利要求3所述的方法，其特征在于，该方法包括生成表(T2)的步骤，表(T2)表明哪个子集(G1,...,GI+1)放置在哪个服务器(SP1,...,SP_I+1)中。

5.根据前面任一项权利要求所述的方法，其特征在于，所述一组编码数据(S1,...,SN)的每一个所述部分包括符号并且所述方法包括查询步骤，该步骤包括从所述一组编码数据(S1,...,SN)的每一个所述部分查询至少一个符号。

6.根据前面一项权利要求所述的方法，其特征在于，查询步骤包括这样的步骤，该步骤包括确定在所述一组编码数据(S1,...,SN)的每一个所述部分中哪个符号(S1,...,SN)必须被查询。

7.根据前面任一项权利要求所述的方法，其特征在于，将所述一组编码数据(S1,...,SN)划分为编码数据的子集，每一个子集表示周围空间的超平面。

8.根据权利要求6和权利要求7的组合所述的方法，其特征在于，在所述一组编码数据(S1,...,SN)的每一个所述部分中确定哪个符号(S1,...,SN)必须被查询的步骤以这样的方式执行：已确定的符号构成与每一个超平面横交的方向，所述每一个超平面由所述一组编码数据(S1,...,SN)的每一个所述部分分别形成。

9.根据权利要求5到8中任一项所述的方法，其特征在于，该方法包括解码被查询的符号(S1,...,SN)的步骤，以便检索具体的符号(Si)。

10.根据前面任一项权利要求所述的方法，其特征在于，通过使用本地可解码的代码执行编码步骤(E1,...,En，S1,...,SN)。

11.根据权利要求9所述的方法，其特征在于，使用本地解码算法执行解码步骤(S1,...,SN)。