CN114553493B

CN114553493B - 面向云存储的抗边信道攻击跨用户广义去重方法及装置

Info

Publication number: CN114553493B
Application number: CN202210089113.8A
Authority: CN
Inventors: 唐鑫; 周艺腾
Original assignee: International Relations, University of
Current assignee: International Relations, University of
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-05-12
Anticipated expiration: 2042-01-25
Also published as: CN114553493A

Abstract

本发明提出一种基于面向云存储的抗边信道攻击跨用户广义去重方法及装置，其中包括：将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将初步模板分解为可变长数据块，在块级生成相应的基集；使用后缀数组算法对基集进行重复模式消除，获得数据块的最终模板；其中，根据基集的加密哈希值得到标签集；将标签集以及对应的偏移量集作为去重请求上传云服务器，以通过云服务器对基执行源端去重，并对偏移量集执行目标端去重；存储非重复偏移量，将非重复基添加到文件字典中，建立基和偏移量的对应关系。在保证效率的情况下实现了跨用户去重的安全性。

Description

面向云存储的抗边信道攻击跨用户广义去重方法及装置

技术领域

本发明属于云存储领域。

背景技术

在大数据的时代背景下，云存储作为一种新兴技术手段，通过虚拟化技术将多个云服务器组合在一起，用于存储和管理数据^[1]。然而，大量冗余随之产生。根据微软的调查，互联网中近40％的个人数据是重复的，而对于多用户共享数据，这一比例高达68％。这不可避免地给云服务提供商带来了额外的存储和管理开销，同时增加了用户的通信负担，从而极大影响了云存储效率和用户体验感。

跨用户去重是解决上述问题的有效方法。它通过云端返回确定响应来阻止后续重复数据上传。具体来讲，用户上传数据之前，首先上传对应标签信息，由CSP通过比较查找本地所有用户存储的数据，一旦发现相同副本，则反馈给用户响应阻止数据上传。因此，对于相同文件，云服务商只需保存一个副本。然而，对于低最小熵的敏感数据^[2]，确定性响应实际上给攻击者创建了可用来窃取目标文件存在性隐私的边信道。考虑一种模板化的用户文件存储于云端，该文件只包含部分敏感数据，其余内容均为公开数据。例如某公司员工的工资单，包含员工姓名、工号、职位等公开信息以及工资这一敏感信息。如果攻击者想要获得其收入情况，只需按照工资单模板格式生成目标员工的公开信息，同时猜测可能的工资，随后上传生成的包含所有可能工资情况的工资单，并分析去重响应。一旦攻击者发现某一文件的上传被阻断，就可确认该文件中工资猜测正确，目标员工的隐私即被泄露。

为了解决这一问题，大多数工作致力于生成无差异响应混淆攻击者，即在去重响应中附加随机信息，使得攻击者无法根据不同情况下响应的差异来判断检测文件的真实存在性。例如，如果将云端的去重响应设置为请求文件中非重复块数据，则为了混淆攻击者，可在响应中附加部分重复块信息，使得无论对重复文件还是非重复文件，去重响应都是不可区分的。当敏感信息包含在单个块时，这似乎是可行的。然而，一旦假设不成立，由于CSP不知道敏感块数量，便无法实现完全混淆。即使一些工作试图实现近似混淆，但由于去重响应仍然可以区分，这些方案仍然存在严重的安全问题。特别地，攻击者可以在去重请求中添加一些随机生成的非重复块，和不知道存在状态的敏感块一起发送给CSP，一旦所有敏感块都与目标文件重复，就会产生差异化响应，从而暴露存在性隐私。

广义去重是解决这一问题的潜在有效方法。借助这个技术，原始数据可分解为基和偏移量，只对包含大量信息的基执行跨用户去重，而对偏移量执行云端去重，即无论是否已经存储于云端，用户都需上传全部偏移量。由于攻击者无法从去重响应中推断出包含基和偏移量的完整数据的存在性隐私，边信道攻击问题得以解决。然而，对于一般化的数据，如何在保证去重效率的情况下可以从相似文件或相似数据块中提取出相同模板开展跨用户去重，仍然是一大挑战。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种面向云存储的抗边信道攻击跨用户广义去重方法，用于在保证效率的情况下实现跨用户去重的安全性。

本发明的第二个目的在于提出一种面向云存储的抗边信道攻击跨用户广义去重装置。

为达上述目的，本发明第一方面实施例提出了一种面向云存储的抗边信道攻击跨用户广义去重方法，包括：将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将初步模板分解为可变长数据块，在块级生成相应的基集；使用后缀数组算法对基集进行重复模式消除，获得数据块的最终模板；其中，根据基集的加密哈希值得到标签集；将标签集以及对应的偏移量集作为去重请求上传云服务器，以通过云服务器对基执行源端去重，并对偏移量集执行目标端去重；存储非重复偏移量，将非重复基添加到文件字典中，建立基和偏移量的对应关系。

本发明实施例提出的面向云存储的抗边信道攻击跨用户广义去重方法，通过将文件的字节级数据划分为基和偏移量，提取基模板，并分别对模板和偏移量执行跨用户去重和目标端去重来抵抗边信道攻击。具体来说，结合字节级连续相同基压缩技术、基序列的CDC分块技术以及块内基的重复模式消除技术提高识别出的模板的泛化能力，这使得从相似文件或相似块中提取的模板匹配成功的概率大大提高，从而在执行跨用户去重时可以优化去重效率；另一方面，由于基和偏移量分别在不同地点执行去重操作，仅从去重响应中无法推断出完整数据的云端存在性，因此本方案可以解决边信道攻击问题，增强去重安全性。

另外，根据本发明上述实施例的面向云存储的抗边信道攻击跨用户广义去重方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，通过连续相同基压缩技术提取初步模板，包括：

若相邻字节的基一致，则删除冗余基，获得文件压缩后的初步模板。

进一步地，在本发明的一个实施例中，使用后缀数组算法对所述基集进行重复模式消除，获得数据块的最终模板，包括：

在最终模板提取的过程中，基和偏移量之间的对应关系始终保持在字节级。

进一步地，在本发明的一个实施例中，还包括：通过云端服务器比较标签集与本地存储数据确定请求文件基的存在性。

进一步地，在本发明的一个实施例中，将标签集以及对应的偏移量集作为去重请求上传云服务器之后，还包括：

若去重请求为新文件，通过云服务器将创建一个新的字典记录其基集。

为达上述目的，本发明第二方面实施例提出了一种面向云存储的抗边信道攻击跨用户广义去重装置，包括：分解模块，用于将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将所述初步模板分解为可变长数据块，在块级生成相应的基集；生成模块，用于使用后缀数组算法对所述基集进行重复模式消除，获得所述数据块的最终模板；其中，根据所述基集的加密哈希值得到标签集；去重模块，用于将标签集以及对应的偏移量集作为去重请求上传云服务器，以通过云服务器对基执行源端去重，并对偏移量集执行目标端去重；存储模块，用于存储非重复偏移量，将非重复基添加到文件字典中，建立基和偏移量的对应关系。

进一步地，在本发明的一个实施例中，将所述标签集以及对应的偏移量集作为去重请求上传云服务器之后，还包括：

若去重请求为新文件，通过所述云服务器将创建一个新的字典记录其基集。。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种面向云存储的抗边信道攻击跨用户广义去重方法的流程示意图。

图2为本发明实施例所提供的一种面向云存储的抗边信道攻击跨用户广义去重装置的流程示意图。

图3为本发明实施例所提供的文件分解及初步模板提取示例图。

图4为本发明实施例所提供的采用CDC策略分块示例图。

图5为本发明实施例所提供的采用后缀数组算法消除重复模式示例图。

图6为本发明实施例所提供的文件的块级分解示意图。

图7为本发明实施例所提供的CSP存储新文件并创建字典示意图。

图8为本发明实施例所提供的相似文件示例图。

图9为本发明实施例所提供的相似文件在云端去重和存储示例图。

图10为本发明实施例所提供的字节级基序列的CDC过程示意图。

图11为本发明实施例所提供的去重流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的面向云存储的抗边信道攻击跨用户广义去重方法和装置。

图1为本发明实施例所提供的一种基于面向云存储的抗边信道攻击跨用户广义去重方法的流程示意图。

如图1所示，该面向云存储的抗边信道攻击跨用户广义去重方法包括以下步骤：

S1：将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将初步模板分解为可变长数据块，在块级生成相应的基集；

其中，抗边信道攻击的跨用户广义去重方案，首先进行用户端模板提取。具体来讲，请求文件的每个字节分解为一个基(base)和一个偏移量(deviation)，基包含该字节的三个最高有效位，偏移量则包含其他剩余位。值得注意的是，对于同类型数据，所选取的高位的ASCII码通常相同，这使得两个相似但不同的字节可以由单个基和两个不同的偏移量表示。

对于待上传文件F，用户A首先在字节级将其分解为基和偏移量。本机制的第一步是连续相同基压缩。如果相邻字节的基一致，删除冗余基获得文件压缩后的初步模板。如图3所示，消除从前两个字节中提取出重复基a。

为了展示如何以极大的概率从相似文件中提取相同的基数，首先考虑字节级处理。对于由c个字节B₁，B₂，...，B_c组成的文件，每个字节B_i(i∈[1，c])都被分解为一个基b_i和一个偏移量d_i，其中b_i包含第i个字节的前k(k∈[1，8))个最高有效位，d_i则包含剩下的8-k位。这意味着基b_i中包含该字节的绝大部分信息，在相似文件的同类型数据中大概率相同。定义B_i＝b_i||d_i表示基和偏移量之间保持对应关系。考虑文件中一个长为l的连续字节流(B_σ＝b_σ||d_σ，B_σ+1＝b_σ+1||d_σ+1，…，B_σ+l-1＝b_σ+l-1||d_σ+l-1)，如果提取的基(b_σ，b_σ+1，...，b_σ+l-1)是相等的，则只需要存储第一个基b_σ，其余数据作为冗余丢弃。如果文件中没有其他类似的情况，得到的压缩后的基序列(b₁，b₂，...，b_σ，b_σ+l，...，b_c)即为此文件的初步模板。此时，将(d_σ+1，d_σ+2，...，d_σ+l-1)重新与b_σ对应，保持偏移量与特定位的关系不变。因此，文件的分解形式可以表示为(B₁＝b₁||d₁，B₂＝b₂||d₂，…，B_σ＝b_σ||d_σ，B_σ+1＝b_σ||d_σ+1，…，B_σ+l-1＝b_σ||d_σ+l-1，B_σ+l＝b_σ+l||d_σ+l，…，B_c＝b_c||d_c)。由于这种字节级连续相同基压缩技术，可以从相似文件中大概率提取出相同的初步模板，这意味着，如果在字节级对提取的基进行跨用户去重，攻击者不能再从响应中推断某具有低最小熵文件的存在性隐私。

接下来，如图4，采用内容分块策略CDC将获得的初步模板分解为子基集，并分别在字节级生成相应的数据块。根据CDC生成的数据块对边界移动问题具有鲁棒性，这意味着即使目标文件的具有低最小熵的敏感信息被去重请求中的不同长度的信息替代，大多数后续块仍可去重。

对于得到的文件初步模板，引入CDC策略进一步提高相似文件提取模板成功匹配的概率。在内容分块过程中，首先引入滑动窗口的概念。滑动窗口大小为L，(L∈[1，c-l])，由上述定义的字节级基确定，并从序列(b₁，b₂，...，b_σ，b_σ+l，...，b_c)的起点开始滑动。如图10所示，基序列(b_α，b_α+1，...，b_α+L-1)被覆盖在初始窗口w_α中，其中α表示这个窗口中第一个字节级基的下标。使用Rabin指纹计算内部内容的哈希值，并定义值R_α如公式(1)所示，其中q是预期中划分基数据块的大小，L表示在滑动窗口中字节级基的数量，p₁和p₂两个数字分别代表了一个不可约多项式。特别地，由于取模运算，R_α∈Z_q。接下来比较R_α和预定义值r∈Z_q，如图10，R_α和r不一致，于是窗口向前移动一位，即移动一个字节级基的大小。

重复上述过程，一旦两者相等，该数据块的边界就可以立即确定。以最后一个窗口w_β为例，假设w_β与r一致，且从b_α到b_β之间的连续元素数量小于L_max，则该块可确定为C_t＝(b_α，b_α+1，...，b_β+L-1)，其中L_max定义为由字节级基估计得到的单个块所允许的最大长度。最终，文件的第t块由此确定，表示为chunk_t＝C_t||D_t。此外，如果直到窗口移动到允许的最大长度才满足边界定位条件，那么块边界将在最后一个窗口的末端确定。

S2：使用后缀数组算法对所述基集进行重复模式消除，获得所述数据块的最终模板；其中，根据所述基集的加密哈希值得到标签集；

如图5、图6所示，以第一个块chunk₁为例，分别定义其块级别的基和偏移量为C₁、D₁。为了提高具有重复模式的多个可预测文件模板的成功匹配率，对C₁使用后缀数组算法来进行重复模式消除，获得该块的最终模板。需要注意的是，在整个模板提取的过程中，各个基和偏移量之间的对应关系始终保持在字节级，这对后续的文件操作十分重要。

以上面的块chunk₁为例来说明重复模式消除过程，这有助于从多条记录中提取单个模板。C_t＝(b_α，b_α+1，...，b_β+L-1)由β+L-α个字节级基组成，采用后缀数组算法提取由字节级比较得到的首个最长重复模式，假定为b_σ(i)，b_σ(i)+1，...，b_σ(i)+s-1(i∈[1，β+L-α)，s∈[1，β+L-α])，接下来移除后续重复模式提高模板的泛化能力，并重新建立偏移量与b_σ(i)，b_σ(i)+1，...，b_σ(i)+s-1间的对应关系。

S3：将标签集以及对应的偏移量集作为去重请求上传云服务器，以通过云服务器对基执行源端去重，并对偏移量集执行目标端去重；

其中，用户A生成文件F的去重请求标签集tag_F(可由每个块中提取的基的加密哈希值得到)并发送给云服务器进行源端去重，此外，上传相应的偏移量集dev_F进行目标端去重。这保证了即使攻击者接收到确定的去重响应，也只能得出模板信息重复，无法推断完整数据的云端存在性，从而消除边信道攻击风险。

S4：存储非重复偏移量，将非重复基添加到文件字典中，建立基和偏移量的对应关系。

在文件F外包到云服务器前，用户首先将其划分成不同大小的n个块(chunk₁，chunk₂，...，chunk_n)，在块级别将其分别分解为基和偏移量。为了降低通信开销，对于得到的基集(C₁，C₂，...，C_n)，分别计算其加密哈希值得到相应的标签集(t₁，t₂，...，t_n)。用户将标签集和偏移量集(D₁，D₂，...，D_n)一起作为去重请求发送给云服务器。接收到去重请求后，CSP通过比较(t₁，t₂，...，t_n)与本地存储数据确定请求文件基的存在性，并以同样的方法检查(D₁，D₂，...，D_n)。由上文所述，CSP对基执行源端去重，对偏移量执行目标端去重。因此，CSP反馈给用户的去重响应中要求用户上传所有块级非重复基，而(D₁，D₂，...，D_n)则与云存储中数据比较直接在云端消除冗余。值得注意的是，如果云中并未存储请求文件的相似文件，即该请求为新文件，云将创建一个新的字典记录其基集。此外，一旦至少有一个标签与云存储中的目标文件标签重复，请求文件即被视为相似文件，因此，请求中新的非重复块级基将被添加到同一文件字典的末尾，具体如图8、9所示。

具体来说，如果请求文件F是新文件，建立字典dic_F＝(C₁，C₂，...，C_n)。考虑后续接收到的去重请求文件F′，其基集表示为(C′₁，C′₂，...，C′_n)。假设C′_j≠C_j(j∈[1，n])，且每个C_i(i∈[1，n]，i≠j)都和字典dic_F中的C_i一致，那么，CSP接收到去重请求后，字典将更新为dic_F&F′＝(C₁，C₂，...，C_n，C_j)。在这种情况下，重新建立C′_j和D_j间的对应关系(C′_j||D_j)。另一方面，一旦D′_j≠D_j，新的偏移量也需存储于云端，并与字典中特定块级基相对应。

综上所述，本发明通过将文件的字节级数据划分为基和偏移量，提取基模板，并分别对模板和偏移量执行跨用户去重和目标端去重来抵抗边信道攻击。具体来说，结合字节级连续相同基压缩技术、基序列的CDC分块技术以及块内基的重复模式消除技术提高识别出的模板的泛化能力，这使得从相似文件或相似块中提取的模板匹配成功的概率大大提高，从而在执行跨用户去重时可以优化去重效率；另一方面，由于基和偏移量分别在不同地点执行去重操作，仅从去重响应中无法推断出完整数据的云端存在性，因此本方案可以解决边信道攻击问题，增强去重安全性。

本发明提出的抗边信道攻击的云数据跨用户广义去重方案可以保证去重的安全性，同时在通信和存储方面较现有方案更加高效。

首先在效率上，现有方法大多将请求文件划分成固定大小的数据块，面临边界移动问题，即一旦请求文件中被替换的敏感信息与目标文件中原始信息长度不同，后续数据块将不可避免地上传至云端。此外，为了实现响应混淆，用户和云端分别需要上传和存储大量冗余数据。不同于这些，本方法可以从不同版本的低最小熵敏感信息中提取相同的模板，并引入后缀数组算法对重复模式的数据块进一步消除冗余，提高模板的泛化能力，使得多个相似文件在云中共享同一字典。此外，由于采用了CDC策略，分块大小不再固定，而是根据内容进行划分，即使被替换的敏感信息与原始信息长度不同，大多数后续数据块仍可去重，这表明本方法对边界移动问题具有鲁棒性。因此，本方法在保证安全性的前提下，可以大大减少跨用户去重中的通信开销，同时节省云服务器的存储空间。

其次，安全性上，本方法确保对于单一模板的低最小熵文件，攻击者无法通过边信道攻击窃取敏感信息的存在性隐私。由于本方法采用基于模板提取的广义去重方案，可以对基模板执行源端去重，而对偏移量执行目标端去重。因此，即使攻击者接收到云端反馈的确定性去重响应，因其不知道相对应的偏移量的云端存在性，也就无法推断完整的敏感数据是否与目标文件相同。因此，本方案可以成功抵抗边信道攻击。

为了实现上述实施例，本发明还提出一种面向云存储的抗边信道攻击跨用户广义去重装置。

图2为本发明实施例提供的一种面向云存储的抗边信道攻击跨用户广义去重装置的结构示意图。

如图2所示，该基于面向云存储的抗边信道攻击跨用户广义去重装置包括：分解模块10，生成模块20，去重模块30，存储模块40，其中，分解模块，用于将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将所述初步模板分解为可变长数据块，在块级生成相应的基集；生成模块，用于使用后缀数组算法对所述基集进行重复模式消除，获得所述数据块的最终模板；其中，根据所述基集的加密哈希值得到标签集；去重模块，用于将标签集以及对应的偏移量集作为去重请求上传云服务器，以通过云服务器对基执行源端去重，并对偏移量集执行目标端去重；存储模块，用于存储非重复偏移量，将非重复基添加到文件字典中，建立基和偏移量的对应关系。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向云存储的抗边信道攻击跨用户广义去重方法，其特征在于，包括以下步骤：

将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将所述初步模板分解可变长数据块，在块级生成相应的基集；其中，在最终模板提取的过程中，所述基和偏移量之间的对应关系始终保持在字节级；

使用后缀数组算法对所述基集进行重复模式消除，获得所述数据块的最终模板；其中，根据所述基集的加密哈希值得到标签集；

将所述标签集以及对应的偏移量集作为去重请求上传云服务器，以通过所述云服务器对基执行源端去重，并对所述偏移量集执行目标端去重；

存储非重复偏移量，将非重复基添加到文件字典中，建立所述基和偏移量的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述通过连续相同基压缩技术提取初步模板，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

通过所述云服务器比较所述标签集与本地存储数据确定请求文件基的存在性。

4.根据权利要求1所述的方法，其特征在于，将所述标签集以及对应的偏移量集作为去重请求上传云服务器之后，还包括：

若去重请求为新文件，通过所述云服务器将创建一个新的字典记录其基集。

5.一种面向云存储的抗边信道攻击跨用户广义去重装置，其特征在于，包括：

分解模块，用于将待去重文件在字节级分解为基和偏移量，通过连续相同基压缩技术提取初步模板，采用内容分块策略CDC将所述初步模板分解为可变长数据块，在块级生成相应的基集；其中，在最终模板提取的过程中，所述基和偏移量之间的对应关系始终保持在字节级；

生成模块，用于使用后缀数组算法对所述基集进行重复模式消除，获得所述数据块的最终模板；其中，根据所述基集的加密哈希值得到标签集；

去重模块，用于将所述标签集以及对应的偏移量集作为去重请求上传云服务器，以通过所述云服务器对基执行源端去重，并对所述偏移量集执行目标端去重；

存储模块，用于存储非重复偏移量，将非重复基添加到文件字典中，建立所述基和偏移量的对应关系。

6.根据权利要求5所述的装置，其特征在于，所述通过连续相同基压缩技术提取初步模板，包括：

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据如权利要求5所述的装置，其特征在于，将所述标签集以及对应的偏移量集作为去重请求上传云服务器之后，还包括：