CN116346307A - 基于统计信息的针对可搜索对称加密迭代攻击方法 - Google Patents
基于统计信息的针对可搜索对称加密迭代攻击方法 Download PDFInfo
- Publication number
- CN116346307A CN116346307A CN202310306856.0A CN202310306856A CN116346307A CN 116346307 A CN116346307 A CN 116346307A CN 202310306856 A CN202310306856 A CN 202310306856A CN 116346307 A CN116346307 A CN 116346307A
- Authority
- CN
- China
- Prior art keywords
- attack
- trapdoor
- matrix
- information
- pairing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 abstract description 42
- 230000006399 behavior Effects 0.000 abstract description 8
- 239000000243 solution Substances 0.000 description 13
- 230000001010 compromised effect Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000001816 cooling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/002—Countermeasures against attacks on cryptographic mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于统计信息的针对可搜索对称加密迭代攻击方法。本发明的攻击仅需要很少的背景知识,被动的观测用户和服务器的查询行为,可在更短的时间内取得更高的恢复准确率,兼顾了攻击的效率和恢复的准确率。具体包括以下步骤:攻击者知道用户的部分查询及其对应的结果,即KnownQ,然后攻击者会被动的观测服务器与客户端之间的查询等一系列交互行为,以获取到观测信息obs,且攻击者本身掌握一个与服务器存储文档关键字分布类似的文档集,并从这些文档中提取出攻击所需的辅助信息aux。然后攻击者会分别从观测信息obs中提取出陷门共现矩阵,从辅助信息obs中提取出关键字共现矩阵,攻击者利用两个贡献矩阵作出初始的预测,得到最初的关键字‑陷门匹配矩阵P,将KnownQ中的元素剔除,通过不断地迭代,凝练统计信息,从而提高攻击的准确率,并通过匈牙利算法,将二次分配问题降低运算复杂度,从而提升攻击的执行效率。
Description
技术领域
本发明涉及一种网络安全技术,具体地说是一种基于统计信息的针对可搜索对称加密迭代攻击方法。
背景技术
系统模型有两个实体组成:客户端和服务器。客户端存储了一个数据集,客户为了节省本地存储,希望能够将数据集上传到服务器,但是又担心数据集的隐私问题,并且希望数据集仍能够保留查询能力,所以客户端会使用SSE方案。服务器提供存储服务,但是却不被客户信任。服务器是诚实但好奇的,它会遵循协议规范,但同时又对存储的数据感兴趣,会通过被动的观察从客户端获取到敏感信息,敌手服务器想要猜测客户端每次发出的查询令牌所对应的关键字。当攻击者有足够的观测信息来猜测从每个加密文档中提取的所有关键字时,攻击就变成了数据库恢复攻击。
虽然SSE方案使用加密的文档和加密的索引表来防止对手猜出匹配查询令牌的关键字,但大多数SSE方案为了提高效率,往往牺牲一些隐私保护性能。这样它们就泄露了一些信息,使得对手可以利用特定的泄露进行查询恢复攻击。
现有的SSE方案中存在有两种典型的泄露:访问模式泄露和搜索模式泄露。查询的访问模式泄露的是与查询陷门所匹配的文档的标识符列表,即可知道包含查询关键字文档的数量;搜索模式泄漏可以用来判断两个查询是否相同,即两个查询对应的关键字是否相同。对于一个关键字唯一的文档,如果查询的关键字相同,则搜索操作相同,对手更容易识别它们。这些信息还可以用来推断某个关键字的搜索频率。
根据现有的针对可搜索对称加密攻击方案的敌手的类型,可以将攻击分为主动攻击和被动攻击。主动攻击的代表案例就是文件注入攻击,攻击者需要具备向数据库插入文档的功能,如对手发送邮件存储到目标数据集中。攻击者可以挑选一些常用的关键字来组成攻击用的文档,然后通过观察这些文档匹配了哪些特定查询,敌手就可以推测出此次查询所对应的关键字。而被动攻击则是敌手只会依据自身掌握的背景知识和通过被动的观测服务器端的查询等一系列操作所获得的观测信息来进行攻击。主动攻击的敌手所需的权限太大,并不具有现实场景下的可应用性,所以目前的学术研究都集中于被动攻击。
而现有的被动攻击根据敌手所需的泄漏级别,可以将查询恢复攻击分为真实值攻击和基于统计信息的攻击。真实值攻击需要攻击者掌握数据库或用户查询的部分或全部内容,这样的攻击也被称为是“泄漏滥用攻击”。而基于统计信息的攻击主要是依赖于观测数据库或客户端查询行为获得的统计信息(例如从观测到的查询中提取的查询陷门共现矩阵),这样的攻击也被称为是“推断攻击”。
现有针对可搜索对称加密的真实值攻击被设计成已知数据攻击来执行,有的可以使用类似文档作为辅助信息来恢复查询。但是,在这种设置下,这些攻击的准确率一般不到20%。这意味着这些攻击只有在作为真实值攻击被执行时才有效。而真实值攻击所需要的辅助信息在现实生活中很难得到满足,因而也就无法在现实中加以应用。现有的相似数据攻击可以利用从相似文档中提取的统计信息来执行查询恢复攻击。而大多数恢复精度较高的统计攻击,由于恢复查询是解决二次问题,因此,执行恢复攻击需要很长的时间。而大部分基于统计信息的查询恢复攻击,既不能达到理想的准确回复率,又不能达到较高的执行效率,导致攻击效果不佳。
发明内容
本发明的目的就是提供一种基于统计信息的针对可搜索对称加密迭代攻击方法,以解决现有的针对可搜索对称加密攻击在背景知识较少的情况下,无法兼顾攻击方案的效率和准确率的问题。
本发明的目的是这样实现的:一种基于统计信息的针对可搜索对称加密迭代攻击方法,包括以下步骤:
S1、攻击者被动观测服务器与客户端的交互行为获取观测信息obs,从相似文档集中提取出辅助信息aux。攻击者从观测信息obs中提取出陷门共现矩阵,从辅助信息aux中提取出关键字共现矩阵,攻击开始之前,敌手会根据KnownQ剔除候选关键字集和候选陷门集中的已知信息,并通过iters次迭代处理,每次释放pct·m个陷门-关键字配对关系,再利用统计信息重新计算这些被释放的陷门与关键字之间的配对关系,迭代结束给出最终的预测矩阵P。
S2、将需要重新计算的候选关键字和候选陷门作为输入,辅以观测信息obs、观测信息aux和已固定的配对矩阵P·,利用基于匈牙利算法最优线性求解器,计算出剩余的关键字和陷门之间的配对关系Po。
进一步地,步骤S1的具体操作步骤是:
S1-1、获取包括已知查询KnownQ、迭代次数iters、每次迭代需要释放的陷门的比率pct在内的观测信息obs和辅助信息aux;
S1-2、从初始化步骤开始,攻击者会从辅助信息aux中获取到已知查询KnownQ的知识,然后在迭代开始之前会先剔除候选关键字集合陷门中已知配对关系的元素;
S1-3、将分配矩阵P中关键字-陷门对应的位置固定为1;
S1-4、接着利用线性求解器,将筛选后的候选陷门集、候选关键字集、辅助信息以及观测信息作为输入,得到一个最初的预测关系,也就是最初的分配矩阵P;
S1-5、每次迭代开始,根据参数pct和分配矩阵P,随机选择固定某些查询陷门tk·,大小为(1-pct)·m;释放剩余候选陷门tko,然后固定与tk·有配对关系的关键字kw·,再释放剩余的候选查询陷门对应的候选关键字集kwo;
S1-6、将kwo、kw·、tko、tk·、P·、aux和obs作为线性求解器的输入,重新计算空闲关键字kwo和空闲陷门tko的配对关系,计算出它们直接的配对矩阵Po;
S1-7、每次迭代的最后,会将固定的配对矩阵P·和重新计算的空闲配对预测矩阵Po结合,形成新的配对预测矩阵P,以供下次迭代使用。
进一步地,S2的具体操作方式是:
S2-1、在给定了辅助信息和分配矩阵的情况下,假定观测信息是一个确定的模型,如Rr(obs|aux,P),本文的方案从观测信息obs中计算得到容量矩阵V,以及从辅助信息aux中提取得到容量矩阵Vsim,对与配对矩阵P的最大似然估计器可以被写为:
S2-2、为了更好的选择参数c和d,我们假定有关数据集的生成是独立的,公式(3)被重写为:
S2-3、假定对于一个特定的陷门tj,也就是Vj,j·Nd,它对应的关键字是kwi,也就是p(j)=i,符合关于Nd和的可能性的二项分布,对于非对角线的元素Vj,j',我们使用符号/>假定V中所有元素都是独立的,以及忽略与P有关的求和,可以将logPr(V|Vsim)写成:
S2-4、根据上述公式,我们将线性求解器的参数c,d分别设置为:
S2-5、利用基于匈牙利算法的线性求解器计算剩余的陷门和关键字之间的配对关系,并得到他们的配对矩阵Po。
本发明攻击算法最关键的组成部分是线性求解器,由SolveLiner来具体指定敌手将如何利用辅助信息aux,观测信息obs,以及固定分配矩阵P·来计算并更新分配矩阵P。由于优化问题只针对Po,又因为P·是确定的,所以是一个常量乘上/>所以可将其改写为线性分配问题(LAP)。di,j就是将关键字kwi分配给陷门tkj的花销,属于线性分配,单独出来只是为了区分一次项系数和二次项系数,c,d是由辅助信息aux和观测信息obs计算得出。
在本发明中,Dreal={d1,d2,...,dNd}表示客户端建立索引的数据集,Nd是数据集文档的总数,本发明用索引来代表这些文档(包括加密文档和明文文档)。表示未建立索引但分布与建立索引文档相近的相似文档集,大小为Ndsim,被敌手作为辅助信息来辅助攻击。本发明在每次初始化过程中都会将文档随机洗牌,所以使用索引不会泄露任何索引所对应的文档的内容。每个文档都附加了一组提取出来的关键字,这些关键字属于关键字空间kw={kw1,kw2,...,kwn}。客户端将数据集中每个文档进行加密,使用用户的私钥对索引进行加密,并将加密后的数据库和索引上传至服务器。当客户端要查询特定关键字kwi∈kw时,客户端首先会根据kwi生成一个搜索陷门tki,并将它发送给服务器。服务器使用加密的搜索索引计算查询令牌tki,该操作将揭示访问模式,即匹配该查询的文档的索引。文中用一个向量ai来表示陷门tki的访问模式,大小为Nd×1,如果文章di与此次查询匹配,则ai中第i个元素置为1,否则为0。本发明用tk={tk1,tk2,...,tkm}来表示所有被敌手观测到的唯一的陷门集合,大小为m。
大多数基于统计的查询恢复攻击在执行攻击之前会观测一些数据如观测查询信息,其中包含了每次客户端执行查询所需要的陷门,以及服务器返回的与该陷门匹配的所有文档的索引。敌手会从这些数据中计算摘要统计信息,而这些信息中典型的就是容量信息。本发明将统计得到的容量信息定义为矩阵V,大小为m×m,其中第j行第j'列表示同时匹配查询令牌tkj和tkj'的文档的总数,计算公式为:也被称为陷门共现矩阵。同样的,敌手自身有一个分布上与索引文档相似的相似文档集Dsim,敌手也可以从这个辅助信息中提取出一个Vsim,大小为n×n。观测信息obs是由敌手观测服务器和客户行为得到,主要包含的是加密文档与查询陷门的关系,而辅助信息aux中的相似文档集是明文文档,包含的信息是明文文档与关键字之间的关系,也被称为关键字共现矩阵。其中/>表示的是同时包含关键字kwi和kwi'的文档出现在数据集中的概率。
本发明用p(·):[m]→[n]表示,例如,p(j)=i表示攻击者认为与查询陷门tkj所对应的关键字为kwi。用一个n×m的矩阵P来表示这个映射关系:
本发明攻击方案还需要的辅助信息就是上述的已知的数据查询,即攻击者在执行攻击前知道一些查询所对应的关键字,对于已知查询数据集定义如下:
KnownQ={<kknown,tknown>|(kknown∈kw∩kwsim)∧(tknown∈tk)∧(tknown=Trapdoor(kknown))}
对于现有的已知数据查询,他们可以利用已泄露的文档来进行攻击,但执行攻击的前提是,泄露文档不能被服务器删除,一旦服务器检测到了这些泄露文档,并将这些文档的索引删除就可以抵御这些已知数据查询。而本发明的攻击则不会受到影响,仍然可以执行。
查询恢复攻击中大多数都可以被定义成一个优化问题,即攻击者试图找到一个有关关键字与查询陷门匹配关系的P矩阵,来最小化某个目标函数。这些问题通常是关于P的线性或二次问题。对于线性恢复查询攻击,可以被表述为:
敌手可以通过O(n·m+m2·logm)的计算成本求取该问题最优解。公式中的常量ci,j代表将关键字kwi分配给陷门tkj的花销。
同样的二次的查询恢复攻击则可以被表述为:
其中,ci,i',j,j'是将关键字kwi分配给查询陷门tkj,以及将关键字kwi'分配给查询陷门tkj'的共同花销。遵循此公式的现有攻击依赖于次最优启发式算法来找到解。
基于线性分配问题(LAP)的查询恢复攻击可以通过高效的求解器寻找问题的最优解。而求解器解决二次分配问题却是次优解且启发式的,LAP不能利用QAP中的可能包含用于查询恢复的有价值的信息二次项。本发明提出了一种查询恢复攻击RSAN,它依赖于LAP的高效求解器迭代求解QAP。与其他QAP求解器相比,它更适合用于恢复查询。
本发明是一种基于统计信息的攻击,该攻击仅需要很少的背景知识,被动的观测用户和服务器的查询行为,在比别的方案更短的时间内取得比别的方案更高的恢复准确率,兼顾了攻击的效率和恢复的准确率。
本发明使用少量的已知查询(可以被服务器检测和删除)和共现矩阵来有效地执行攻击;这有助于提高本发明的恢复精度。关键词共现矩阵由相似文档计算得出,令牌共现矩阵由观测信息计算得出。本发明使用线性求解器迭代地寻找二次查询恢复攻击的解。通过使用上次迭代的输出来提高攻击的准确率。这两个特性极大地缩短了攻击的执行时间,比其他攻击快几个数量级,同时还保证了攻击的恢复准确率。
本发明的攻击RSAN只需要使用关键字分布与索引文档相似的文档,就可以达到95%左右的恢复精度,攻击者只需了解1%的已知查询就可以实现这一点。与其他基于统计信息数据攻击相比,本发明的攻击的执行效率和恢复精度都要更优。
附图说明
图1是攻击方案中的单次迭代的示例图。
图2是RSAN与Score攻击的效果比较示例图;其中,(a)是Enron数据集,(b)是Lucene数据集。
图3是RSAN和其他统计攻击的比较示例图;其中,(a)是恢复准确率,(b)是执行时间。
具体实施方式
下面结合附图对本发明做进一步详述。
本发明针对可搜索对称加密迭代攻击方法包括以下步骤:
S1、攻击者被动观测服务器与客户端的交互行为获取观测信息obs,从相似文档集中提取出辅助信息aux。攻击者从观测信息obs中提取出陷门共现矩阵,从辅助信息aux中提取出关键字共现矩阵,攻击开始之前,敌手会根据KnownQ剔除候选关键字集和候选陷门集中的已知信息,并通过iters次迭代处理,每次释放pct·m个陷门-关键字配对关系,再利用统计信息重新计算这些被释放的陷门与关键字之间的配对关系,迭代结束给出最终的预测矩阵P。其具体操作方式是:
S1-1、获取包括已知查询KnownQ、迭代次数iters、每次迭代需要释放的陷门的比率pct在内的观测信息obs和辅助信息aux;
S1-2、从初始化步骤开始,攻击者会从辅助信息aux中获取到已知查询KnownQ的知识,然后在迭代开始之前会先剔除候选关键字集合陷门中已知配对关系的元素;
S1-3、将分配矩阵P中关键字-陷门对应的位置固定为1;
S1-4、接着利用线性求解器,将筛选后的候选陷门集、候选关键字集、辅助信息以及观测信息作为输入,得到一个最初的预测关系,也就是最初的分配矩阵P;
S1-5、每次迭代开始,根据参数pct和分配矩阵P,随机选择固定某些查询陷门tk·,大小为(1-pct)·m;释放剩余候选陷门tko,然后固定与tk·有配对关系的关键字kw·,再释放剩余的候选查询陷门对应的候选关键字集kwo;
S1-6、将kwo、kw·、tko、tk·、P·、aux和obs作为线性求解器的输入,重新计算空闲关键字kwo和空闲陷门tko的配对关系,计算出它们直接的配对矩阵Po;
S1-7、每次迭代的最后,会将固定的配对矩阵P·和重新计算的空闲配对预测矩阵Po结合,形成新的配对预测矩阵P,以供下次迭代使用。
S2、将需要重新计算的候选关键字和候选陷门作为输入,辅以观测信息obs、观测信息aux和已固定的配对矩阵P·,利用基于匈牙利算法最优线性求解器,计算出剩余的关键字和陷门之间的配对关系Po。其具体操作方式是:
S2-1、在给定了辅助信息和分配矩阵的情况下,假定观测信息是一个确定的模型,如Pr(obs|aux,P),本文的方案从观测信息obs中计算得到容量矩阵V,以及从辅助信息aux中提取得到容量矩阵Vsim,对与配对矩阵P的最大似然估计器可以被写为:
S2-2、为了更好的选择参数c和d,我们假定有关数据集的生成是独立的,公式(3)被重写为:
S2-3、假定对于一个特定的陷门tj,也就是Vj,j·Nd,它对应的关键字是kwi,也就是p(j)=i,符合关于Nd和的可能性的二项分布,对于非对角线的元素Vj,j',我们使用符号/>假定V中所有元素都是独立的,以及忽略与P有关的求和,可以将logPr(V|Vsim)写成:
S2-4、根据上述公式,我们将线性求解器的参数c,d分别设置为:
S2-5、利用基于匈牙利算法的线性求解器计算剩余的陷门和关键字之间的配对关系,并得到他们的配对矩阵Po。
本发明攻击算法最关键的组成部分是线性求解器,由SolveLiner来具体指定敌手将如何利用辅助信息aux,观测信息obs,以及固定分配矩阵P·来计算并更新分配矩阵P。由于优化问题只针对Po,又因为P·是确定的,所以是一个常量乘上/>所以可将其改写为线性分配问题(LAP)。di,j就是将关键字kwi分配给陷门tkj的花销,属于线性分配,单独出来只是为了区分一次项系数和二次项系数,c,d是由辅助信息aux和观测信息obs计算得出。
在本发明中,Dreal={d1,d2,...,dNd}表示客户端建立索引的数据集,Nd是数据集文档的总数,本发明用索引来代表这些文档(包括加密文档和明文文档)。表示未建立索引但分布与建立索引文档相近的相似文档集,大小为Ndsim,被敌手作为辅助信息来辅助攻击。本发明在每次初始化过程中都会将文档随机洗牌,所以使用索引不会泄露任何索引所对应的文档的内容。每个文档都附加了一组提取出来的关键字,这些关键字属于关键字空间kw={kw1,kw2,...,kwn}。客户端将数据集中每个文档进行加密,使用用户的私钥对索引进行加密,并将加密后的数据库和索引上传至服务器。当客户端要查询特定关键字kwi∈kw时,客户端首先会根据kwi生成一个搜索陷门tki,并将它发送给服务器。服务器使用加密的搜索索引计算查询令牌tki,该操作将揭示访问模式,即匹配该查询的文档的索引。文中用一个向量ai来表示陷门tki的访问模式,大小为Nd×1,如果文章di与此次查询匹配,则ai中第i个元素置为1,否则为0。本发明用tk={tk1,tk2,...,tkm}来表示所有被敌手观测到的唯一的陷门集合,大小为m。
大多数基于统计的查询恢复攻击在执行攻击之前会观测一些数据如观测查询信息,其中包含了每次客户端执行查询所需要的陷门,以及服务器返回的与该陷门匹配的所有文档的索引。敌手会从这些数据中计算摘要统计信息,而这些信息中典型的就是容量信息。本发明将统计得到的容量信息定义为矩阵V,大小为m×m,其中第j行第j'列表示同时匹配查询令牌tkj和tkj'的文档的总数,计算公式为:也被称为陷门共现矩阵。同样的,敌手自身有一个分布上与索引文档相似的相似文档集Dsim,敌手也可以从这个辅助信息中提取出一个Vsim,大小为n×n。观测信息obs是由敌手观测服务器和客户行为得到,主要包含的是加密文档与查询陷门的关系,而辅助信息aux中的相似文档集是明文文档,包含的信息是明文文档与关键字之间的关系,也被称为关键字共现矩阵。其中/>表示的是同时包含关键字kwi和kwi'的文档出现在数据集中的概率。
本发明用p(·):[m]→[n]表示,例如,p(j)=i表示攻击者认为与查询陷门tkj所对应的关键字为kwi。用一个n×m的矩阵P来表示这个映射关系:
本发明攻击方案还需要的辅助信息就是上述的已知的数据查询,即攻击者在执行攻击前知道一些查询所对应的关键字,对于已知查询数据集定义如下:
KnownQ={<kknown,tknown>|(kknown∈kw∩kwsim)^(tknown∈tk)^(tknown=Trapdoor(kknown))}
对于现有的已知数据查询,他们可以利用已泄露的文档来进行攻击,但执行攻击的前提是,泄露文档不能被服务器删除,一旦服务器检测到了这些泄露文档,并将这些文档的索引删除就可以抵御这些已知数据查询。而本发明的攻击则不会受到影响,仍然可以执行。
查询恢复攻击中大多数都可以被定义成一个优化问题,即攻击者试图找到一个有关关键字与查询陷门匹配关系的P矩阵,来最小化某个目标函数。这些问题通常是关于P的线性或二次问题。对于线性恢复查询攻击,可以被表述为:
敌手可以通过O(n·m+m2·logm)的计算成本求取该问题最优解。公式中的常量ci,j代表将关键字kwi分配给陷门tkj的花销。
同样的二次的查询恢复攻击则可以被表述为:
其中,ci,i',j,j'是将关键字kwi分配给查询陷门tkj,以及将关键字kwi'分配给查询陷门tkj'的共同花销。遵循此公式的现有攻击依赖于次最优启发式算法来找到解。
攻击方案采用Python3.8编写,运行系统为Ubuntu18.04,内存为32G,i5-10400CPU(2.9Ghz)。攻击实验使用了大多数SSE方案使用的相同的公开数据集:30109封电子邮件的Enron数据集和63597封电子邮件的Lucene数据集。为了测试攻击在不同数据集下的性能,本发明在某些情况下使用Lucene数据集。本发明使用自然语言工具包(NLTK)对数据集进行基本的自然语言处理:从电子邮件中提取关键字,从语料库中排除停止词。本发明首先选择Refined Score Attack作为对比方案,因为它需要的辅助信息和RSAN的是一样的。类似地,本发明还根据上面提到的统计信息将RSAN与其他攻击进行比较。每个实验运行30次,得到平均恢复精度,以获得更可靠的数据。
如图2(a)所示,方案比较了RSAN和Refined Score Attack在恢复不同查询数量时的准确率。为了保证实验的公平性,这两个实验的参数保持一致。Enron数据集按照设定的比例随机划分,其中40%的文档作为对手需要的类似文档数据集;剩下的60%作为客户端需要存储的文档数据集。折线图中的每个点都是使用相同参数执行攻击30次后的平均精度。实验给每个对手1%的已知查询,以帮助它们更好地执行攻击。在各种情况下,RSAN至少比Refined Score Attack的攻击准确10%。值得注意的是,当查询数量扩大到2000个时,差距已经增加到19%左右。
随着查询次数的增加,候选关键字集的大小变得越来越大,恢复攻击将变得更加困难。图2(a)很好地证实了这一分析。Refined Score Attack是根据关键字向量和令牌向量之间的距离来判断令牌和关键字的匹配程度。当查询次数增加时,可能会出现更多距离较近的可能的令牌-关键字对,攻击很难判断选择哪对。本方案RSAN的解决方案是不断改变矩阵P中元素的分布,依靠不断迭代的统计信息,使矩阵P更加准确,如图2(a)所示,RSAN对不同查询数的恢复攻击精度波动很小,最好和最差之间的差距几乎可以忽略。折线附近的阴影表示精度的标准偏差;阴影面积越大,每次攻击精度的差异就越显著。我们在不同参数下的攻击准确率都在98%左右,这比精分攻击要好很多,而且本方案的阴影面积也小很多。
在图2(b)中,实验中关键字空间固定为3000,并将不同查询的数量从500扩展到3000。如图2(b)所示,查询集越大,RSAN的攻击精度越高;这表明攻击可以高效地使用背景知识,因为查询集越广泛,对手掌握的知识就越多。此外,这一特征也可以从Refined ScoreAttack中得出。Lucene数据集有63K封;这意味着Lucene中的电子邮件包含更丰富的词汇和更多的内容。当已知查询的数量最小时(例如,查询集=500),Refined Score Attack准确性波动很大;这也是两种攻击的准确性差异最显著的地方,高达12%。当查询集扩展到3K时,本发明的攻击大约在1200秒内完成,而精制分数攻击的执行时间是10000秒,本发明快了一个数量级。
图3(a)显示了不同统计查询恢复攻击对500条查询的恢复精度。不同颜色的柱子表示不同的攻击。柱子的下限为30轮攻击的最小精度,上限为30轮攻击的最大精度。蓝线上的每个点代表30轮攻击的平均恢复准确率。红色柱子表示SAP的恢复准确率,SAP攻击同时需要容量和频率信息才能达到最佳结果。但是由于本文没有考虑频率信息,因此SAP的平均准确率只有5.18%。绿色列表示IKK的精度。其中,方案设置了不同的冷却参数来执行IKK攻击:Pcool=0.99,0.999,0.9999,0.99999。初始攻击温度为T=200。当温度低于设置的阈值时停止迭代。我们可以看到,冷却参数Pcool越接近1,IKK的精度越高。当Pcool=0.99时,平均攻击准确率只有0.5%,而当Pcool=0.99999时,平均攻击准确率达到67.12%,有显著提高;这是因为Pcool越大,温度下降越慢,IKK攻击迭代次数越多,最终的预测会更准确。
紫色代表GraphM,平均准确率为52.84%。精度高于SAP和冷却参数较小的IKK,但计算整个陷门集和关键字集需要巨大的计算成本;它的运行时间比SAP久得多,接近IKK。黄色是本方案攻击RSAN,可以看到,在30轮之后,RSAN的最佳情况和最差情况之间的差异非常小。RSAN(pct=0.25,iters=100,KnownQ=5)在执行30次后的平均准确率为97.72%,明显优于其他基于统计信息的查询恢复攻击。图3(b)为每次攻击的执行时间;可以看到,为了获得较高的恢复精度,IKK和GraphM都必须牺牲效率来获得精度的提升。本发明的RSAN比其他统计攻击快一到两个数量级。
通过上述描述可以看出,本发明是一种非常有效的攻击RSAN,攻击可以利用关键字分布与索引文档类似的文档和已知的查询来高效且准确地恢复查询。本发明将恢复二次优化问题的查询公式,并通过迭代使用最优线性求解器找到最优的解决方案。RSAN仅使用相似文档就达到了95%的准确性。与本发明攻击类似的Refined Score Attack,在相同的设置下,恢复精度小于90%。与基于统计信息的其他攻击相比,IKK的恢复精度最高,达到67.12%,运行时间高达103秒。相比之下,RSAN在100次迭代后的恢复精度为97.5%,但只需要19.71秒,快了两个数量级。与其他统计攻击相比,本发明同样快出几个数量级。所有真实值攻击都需要假设对手知道加密文档的部分或全部知识,以获得相当大的恢复速度。尽管如此,它们仍然无法达到90%。然而,这样的设定严重脱离现实,使得真实值攻击在现实生活中无法应用。与真实值攻击不同,本发明的背景知识只需要1%的已知查询。服务器也可以检测到并删除已知查询,这并不影响本的本发明的准确性。
Claims (3)
1.一种基于统计信息的针对可搜索对称加密迭代攻击方法,其特征是,包括以下步骤:
S1、攻击者被动观测服务器与客户端的交互行为获取观测信息obs,从相似文档集中提取出辅助信息aux;攻击者从观测信息obs中提取出陷门共现矩阵,从辅助信息aux中提取出关键字共现矩阵,攻击开始之前,敌手根据KnownQ剔除候选关键字集和候选陷门集中的已知信息,并通过iters次迭代处理,每次释放pct·m个陷门-关键字配对关系,再利用统计信息重新计算这些被释放的陷门与关键字之间的配对关系,迭代结束给出最终的预测矩阵P;
S2、将需要重新计算的候选关键字和候选陷门作为输入,辅以观测信息obs、观测信息aux和已固定的配对矩阵P·,利用基于匈牙利算法最优线性求解器,计算出剩余的关键字和陷门之间的配对关系P°。
2.根据权利要求1所述的基于统计信息的针对可搜索对称加密迭代攻击方法,其特征是,步骤S1的具体操作是:
S1-1、获取包括已知查询KnownQ、迭代次数iters、每次迭代需要释放的陷门的比率pct在内的观测信息obs和辅助信息aux;
S1-2、从初始化步骤开始,攻击者从辅助信息aux中获取到已知查询KnownQ的知识,然后在迭代开始之前先剔除候选关键字集合陷门中已知配对关系的元素;
S1-3、将分配矩阵P中关键字-陷门对应的位置固定为1;
S1-4、利用线性求解器,将筛选后的候选陷门集、候选关键字集、辅助信息以及观测信息作为输入,得到一个最初的预测关系,即为最初的分配矩阵P;
S1-5、每次迭代开始,根据参数pct和分配矩阵P,随机选择固定某些查询陷门tk·,其大小为(1-pct)·m;释放剩余候选陷门tk°,然后固定与查询陷门tk·有配对关系的关键字kw·,再释放剩余的候选查询陷门对应的候选关键字集kw°;
S1-6、将kw°、kw·、tk°、tk·、P·、aux和obs作为线性求解器的输入,重新计算空闲关键字kw°和空闲陷门tk°的配对关系,计算出它们直接的配对矩阵P°;
S1-7、每次迭代的最后,将固定的配对矩阵P·和重新计算的空闲配对预测矩阵P°结合,形成新的配对预测矩阵P,以供下次迭代使用。
3.根据权利要求1所述的基于统计信息的针对可搜索对称加密迭代攻击方法,其特征是,步骤S2的具体操作方式是:
S2-1、在给定了辅助信息和分配矩阵的情况下,假定观测信息是一个确定的模型,从观测信息obs中计算得到容量矩阵V,从辅助信息aux中提取得到容量矩阵Vsim,对与配对矩阵P的最大似然估计器被写为:
S2-2、为选择线性求解器的参数c和d,假定数据集的生成是独立的,公式(3)被重写为:
S2-3、假定一个特定的陷门tj,其对应的关键字是kwi,符合关于Nd和的可能性的二项分布,对于非对角线的元素Vj,j',使用符号/>假定V中所有元素都是独立的,以及忽略与P有关的求和,将logPr(V|Vsim)写成:
S2-4、根据上述公式,将线性求解器的参数c,d分别设置为:
S2-5、利用基于匈牙利算法的线性求解器计算剩余的陷门和关键字之间的配对关系,并得到它们之间的配对矩阵P°。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306856.0A CN116346307A (zh) | 2023-03-27 | 2023-03-27 | 基于统计信息的针对可搜索对称加密迭代攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306856.0A CN116346307A (zh) | 2023-03-27 | 2023-03-27 | 基于统计信息的针对可搜索对称加密迭代攻击方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116346307A true CN116346307A (zh) | 2023-06-27 |
Family
ID=86885321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306856.0A Pending CN116346307A (zh) | 2023-03-27 | 2023-03-27 | 基于统计信息的针对可搜索对称加密迭代攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116346307A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459326A (zh) * | 2023-12-25 | 2024-01-26 | 吉林信息安全测评中心 | 一种网络安全防护系统 |
-
2023
- 2023-03-27 CN CN202310306856.0A patent/CN116346307A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459326A (zh) * | 2023-12-25 | 2024-01-26 | 吉林信息安全测评中心 | 一种网络安全防护系统 |
CN117459326B (zh) * | 2023-12-25 | 2024-03-08 | 吉林信息安全测评中心 | 一种网络安全防护系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement | |
Wang et al. | Privacy-preserving multi-keyword fuzzy search over encrypted data in the cloud | |
Ge et al. | Enabling efficient verifiable fuzzy keyword search over encrypted data in cloud computing | |
Zhong et al. | Efficient dynamic multi-keyword fuzzy search over encrypted cloud data | |
Yuan et al. | Enabling privacy-preserving image-centric social discovery | |
Damie et al. | A highly accurate {Query-Recovery} attack against searchable encryption using {Non-Indexed} documents | |
Oya et al. | {IHOP}: Improved Statistical Query Recovery against Searchable Symmetric Encryption through Quadratic Optimization | |
Awad et al. | Chaotic searchable encryption for mobile cloud storage | |
CN109493017A (zh) | 基于区块链的可信外包存储方法 | |
Bezawada et al. | Privacy preserving string matching for cloud computing | |
Miao et al. | Ranked keyword search over encrypted cloud data through machine learning method | |
CN104636462A (zh) | 一种能抵抗统计分析攻击的快速密文检索方法和系统 | |
CN116346307A (zh) | 基于统计信息的针对可搜索对称加密迭代攻击方法 | |
CN109902143A (zh) | 一种基于密文的多关键字扩展检索方法 | |
Xu et al. | Leakage-abuse attacks against forward and backward private searchable symmetric encryption | |
Lei et al. | Fast and secure knn query processing in cloud computing | |
CN115757676A (zh) | 模糊可搜索加密方法、装置及电子设备 | |
CN109614521B (zh) | 一种高效的隐私保护子图查询处理方法 | |
Tang et al. | Cross-graph embedding with trainable proximity for graph alignment | |
Guo et al. | LuxGeo: Efficient and Security-Enhanced Geometric Range Queries | |
Yan et al. | Secure multi-keyword search supporting dynamic update and ranked retrieval | |
Tian et al. | EAFS: An efficient, accurate, and forward secure searchable encryption scheme supporting range search | |
Xue et al. | Cuckoo-filter based privacy-aware search over encrypted cloud data | |
Guo et al. | Privacy preserving weighted similarity search scheme for encrypted data | |
Zhao et al. | Privacy-preserving personalized search over encrypted cloud data supporting multi-keyword ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |