CN110099097B

CN110099097B - 一种抵抗侧信道攻击的数据去重方法

Info

Publication number: CN110099097B
Application number: CN201910203822.2A
Authority: CN
Inventors: 柳毅; 王平雁; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-12-17
Anticipated expiration: 2039-03-18
Also published as: CN110099097A

Abstract

本发明公开了一种抵抗侧信道攻击的数据去重方法，包括下述步骤：步骤一，用户对文件F按固定大小进行分块，得到由n个数据块构成的数据块集合{c₁,c₂,…,c_n}，每个数据块c_i大小为s，若最后一个数据块c_n的大小不等于s，则生成虚拟字节补充到c_n中，使得该数据块大小为s；检查n是否为偶数，若不是，则生成一个大小为s的虚拟数据块c_n+1并加入到数据块集合中，使得数据块的个数总是为偶数；本发明无需第三方服务器协助，只涉及云存储服务器和用户两个实体，不需要借助任何可信第三方(网关或服务器等)来保证数据的安全和隐私，大大减少了额外的通信开销。

Description

一种抵抗侧信道攻击的数据去重方法

技术领域

本发明涉及云存储系统数据去重技术领域，具体涉及一种抵抗侧信道攻击的数据去重方法。

背景技术

近年来，随着大数据和云计算技术的发展，越来越多的用户选择将数据外包到云存储服务中进行数据的存储和管理。为了节省存储空间和减少网络带宽的消耗，大部分云服务提供商(CSP，Cloud Service Provider)都采取了数据去重(deduplication)技术，亦被称为重复数据删除技术。数据去重技术是指，针对云存储中冗余的文件或数据块，云存储服务器只保留一份数据副本。根据去重发生的位置，数据去重通常可分为客户端数据去重和服务器端数据去重。客户端数据去重发生在数据上传前，服务器端数据去重发生在数据上传后。由于客户端数据去重发生在数据上传之前，相比服务器端去重节省了网络带宽，因此目前云服务提供商普遍采用的去重方法是客户端数据去重。

然而，现有的客户端数据去重方案容易遭受侧信道(side channels)攻击。例如，用户首先上传文件F的哈希值到云服务器查询文件F的存储状态，即是否已存储文件F，随后云服务器返回操作指令1(表示“已存储”)或0(表示“未存储”)，当用户接收到1时无需上传F，接收到0时则上传F；因此，在这个交互过程中，攻击者能够通过返回值或网络流量的大小来判断文件F在云服务器中的存储状态，从而引发侧信道攻击。若明确文件F已存储于云服务器，攻击者能够更进一步地发起其他侧信道攻击，如获取文件内容、建立隐蔽通道和发起关联文件攻击等，严重威胁云存储中用户数据的安全和隐私。针对于此，研究者们提出了流量混淆(traffic obfuscation)的概念，即对用户上传文件时的网络流量进行混淆，使得攻击者无法确定文件F的存储状态。例如，在用户与服务器的交互过程中，若文件F已存储于服务器中，服务器随机返回操作指令0或1，则用户需要上传的数据大小具有随机性，令攻击者难以判断文件F的存储状态，从而达到混淆的目的。然而，该方法需要消耗较多额外的网络带宽。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种抵抗侧信道攻击的数据去重方法，该方法根据数据流行度进行不同流量混淆的数据去重处理，在抵抗侧信道攻击的同时，有效减少网络带宽的消耗。

本发明的目的通过下述技术方案实现：

一种抵抗侧信道攻击的数据去重方法，包括下述步骤：

步骤一，用户对文件F按固定大小进行分块，得到由n个数据块构成的数据块集合{c₁,c₂,…,c_n}，每个数据块c_i大小为s，若最后一个数据块c_n的大小不等于s，则生成虚拟字节补充到c_n中，使得该数据块大小为s；检查n是否为偶数，若不是，则生成一个大小为s的虚拟数据块c_n+1并加入到数据块集合中，使得数据块的个数总是为偶数；

步骤二，用户从数据块集合中选取数据块准备上传，每次取两个数据块c_i和c_i+1，先分别计算数据块的哈希值，即h(c_i)＝H(c_i)，h(c_i+1)＝H(c_i+1)，随后将哈希值<h(c_i),h(c_i+1)>上传到CSP中；

步骤三，CSP检查是否已存储数据块c_i和c_i+1，若两个数据块都未存储，则返回操作指令2；若有且仅有一个数据块已存储，则返回操作指令1；若两个数据块都已存储，则根据数据流行度返回操作指令0或1；

其中，当c_i和c_i+1的数据流行度都大于或等于阈值t，即count(c_i)≥t且count(c_i+1)≥t时，则CSP返回操作指令0，否则返回操作指令1；

步骤四，用户根据CSP的返回值0、1或2进行相应的响应；

其中，当用户接收到操作指令0时，无需上传任何数据块，此时在客户端发生去重；当用户接收到操作指令1时，则上传数据块c_i和c_i+1的异或值，即

当用户接收到操作指令2时，则上传数据块c_i和c_i+1；

步骤五，CSP处理用户上传的数据；

其中，当CSP接收到

时，根据已存储的数据块c_i或c_i+1计算出另一个数据块，如由

可计算得c_i+1，将其保存，并更新数据块c_i和c_i+1的数据流行度，即count(c_i)＝count(c_i)+1，count(c_i+1)＝count(c_i+1)+1；当CSP接收到c_i和c_i+1时，将其保存，并初始化数据块c_i和c_i+1的数据流行度，即count(c_i)＝1，count(c_i+1)＝1。

本发明与现有技术相比具有以下的有益效果：

(1)本发明无需第三方服务器协助，只涉及云存储服务器和用户两个实体，不需要借助任何可信第三方(网关或服务器等)来保证数据的安全和隐私，大大减少了额外的通信开销；

(2)本发明对用户数据进行数据流行度管理，对流行数据和非流行数据设置不同的隐私保护等级，保证了非流行数据的存储状态隐私，从而抵抗侧信道攻击。同时，由于流行数据的隐私保护需求较低，本发明直接在客户端进行去重操作，有效减少网络带宽的消耗；

(3)本发明对文件进行块级去重，即更细粒度的去重，相比文件级去重方法的去重率更高，节省云服务器存储空间。

附图说明

图1为本发明的整体流程图；

图2为本发明初始化阶段的子流程图；

图3为本发明数据上传阶段交互的子流程图。

符号说明：

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1～3所示，一种抵抗侧信道攻击的数据去重方法，包括下述步骤：

步骤二，用户从数据块集合中选取数据块准备上传，每次取两个数据块c_i和c_i+1，先分别计算数据块的哈希值，即h(c_i)＝H(c_i)，h(c_i+1)＝H(c_i+1)，H(·)代表散列函数，随后将哈希值<h(c_i),h(c_i+1)>上传到CSP中；

步骤三，CSP检查是否已存储数据块c_i和c_i+1，若两个数据块都未存储，则返回操作指令2；若有且仅有一个数据块已存储，则返回操作指令1；若两个数据块都已存储，则根据数据流行度返回操作指令0或1；其中，当c_i和c_i+1的数据流行度都大于或等于阈值t，即count(c_i)≥t且count(c_i+1)≥t时，则CSP返回操作指令0，否则返回操作指令1；

步骤四，用户根据CSP的返回值0、1或2进行相应的响应；其中，当用户接收到操作指令0时，无需上传任何数据块，此时在客户端发生去重；当用户接收到操作指令1时，则上传数据块c_i和c_i+1的异或值，即

当用户接收到操作指令2时，则上传数据块c_i和c_i+1；

步骤五，CSP处理用户上传的数据；其中，当CSP接收到

数据流行度(Data Popularity)是指数据的流行程度，在云存储系统中越多用户上传同一份数据，则表示该数据越流行。根据数据流行度可将用户数据分为流行数据和非流行数据，通常来说，流行数据(例如流行歌曲)相比非流行数据(例如个人文件)需要的隐私保护程度较低，因此在本方法中对流行数据和非流行数据提供不同程度的隐私保护。

本发明提出一种基于流量混淆的数据去重方法，同时结合了数据流行度，使得在用户与云服务器交互过程中，攻击者难以获取非流行数据的存储状态，从而抵抗侧信道攻击；此外，对于流行数据，能够在客户端进行去重，因此减少了网络带宽的消耗。为了达到流量混淆的目的，本发明采取每次同时上传两个数据块，待上传的数据块记为c₁和c₂，用户首先查询数据块的存储状态，如下表1所示：

表1不同存储状态下的返回值

其中，0表示未存储，1表示已存储，CSP根据数据存储状态返回相应的操作指令。(1)当数据块c₁和c₂都未存储在云服务器上时，CSP返回2，表示用户需要上传c₁和c₂；(2)当数据块c₁和c₂其中一个存储在云服务器上，另一个未存储时，CSP返回1，表示用户需要上传c₁和c₂的异或值，即

CSP接收到异或值后可根据已存储的数据块计算出另一个数据块，例如：CSP已存储c₁但未存储c₂，则由

可计算得c₂；(3)当c₁和c₂都已存储在云服务器上时，CSP先检查数据块c₁和c₂的流行度，若为非流行数据则返回1，若为流行数据则返回0。当用户接收到0时，表示不需要上传任何数据，此时在客户端发生去重。在发明中，CSP采用count(c_i)表示任意数据块c_i的数据流行度，用来记录不同用户上传数据块c_i的次数，由CSP中的counter模块进行记录。当CSP第一次接收到c_i时，counter模块初始化count(c_i)＝1，随着其他用户重复上传c_i，counter模块不断更新count(c_i)值，因此count(c_i)越大说明数据块c_i越流行。值得注意的是，同一个用户多次重复上传c_i，count(c_i)也只记录一次。与此同时，在本方法中设置了流行度阈值t，当count(c_i)≥t，表示数据块c_i为流行数据；否则，c_i为非流行数据。

本发明无需第三方服务器协助，只涉及云存储服务器和用户两个实体，不需要借助任何可信第三方(网关或服务器等)来保证数据的安全和隐私，大大减少了额外的通信开销；对用户数据进行数据流行度管理，对流行数据和非流行数据设置不同的隐私保护等级，保证了非流行数据的存储状态隐私，从而抵抗侧信道攻击。例如根据表1可知，当用户接收到操作指令1时，无法判断c1已存储或c2已存储或c1、c2都已存储。同时，由于流行数据的隐私保护需求较低，本发明直接在客户端进行去重操作，有效减少网络带宽的消耗。根据表1可知，当c1和c2都为流行数据，用户将接收到操作指令0，无需进行上传数据操作；对文件进行块级去重，即更细粒度的去重，相比文件级去重方法的去重率更高，节省云服务器存储空间。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种抵抗侧信道攻击的数据去重方法，其特征在于，包括下述步骤：

步骤四，用户根据CSP的返回值0、1或2进行相应的响应；

当用户接收到操作指令2时，则上传数据块c_i和c_i+1；

步骤五，CSP处理用户上传的数据；

其中，当CSP接收到