CN113158209A - 一种保护隐私的Top-k查询why-not问题处理方法 - Google Patents

一种保护隐私的Top-k查询why-not问题处理方法 Download PDF

Info

Publication number
CN113158209A
CN113158209A CN202110428365.4A CN202110428365A CN113158209A CN 113158209 A CN113158209 A CN 113158209A CN 202110428365 A CN202110428365 A CN 202110428365A CN 113158209 A CN113158209 A CN 113158209A
Authority
CN
China
Prior art keywords
query
data
privacy
secure
protocol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110428365.4A
Other languages
English (en)
Inventor
滕一平
赵炜煜
许莉
范纯龙
丁国辉
郑志勇
张荣博
李胜宇
施展
孙悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN202110428365.4A priority Critical patent/CN113158209A/zh
Publication of CN113158209A publication Critical patent/CN113158209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种保护隐私的Top‑k查询why‑not问题处理方法,采用Paillier密码系统来保证数据和查询的语义安全,并提出两个新的安全子协议安全比较协议和安全三元条件操作协议(SCMP,STCO),连同其他安全子协议作为基础,以支持在密文中计算得分函数和惩罚函数。然后,针对寻找全局最优精炼查询的计算方式,提出了一种安全的加权空间生成方法,采用基于样本的求解方法来获得最优近似精炼查询。通过分析证明了该方法的安全性并说明了计算复杂度,大量在真实数据集上的实验结果证明了该发明方法提出方法的有效性。

Description

一种保护隐私的Top-k查询why-not问题处理方法
技术领域
本发明公开涉及数据处理技术领域,尤其涉及一种保护隐私的Top-k查询why-not问题处理方法。
背景技术
近年来,云计算作为一种新兴的计算方式,因其强大的计算和存储能力吸引了许多 个人和组织。外包数据和云计算具有很大的灵活性,也节省了大量的成本和管理开销,促使更多的数据拥有者在云中提供数据服务。但是,出于隐私方面的考虑,需要保证敏 感数据的机密性不受无法完全信任的云服务器和未授权用户的影响。
要对云和未授权用户保证外包数据的机密性,一个简单的解决方案是在外包之前由 数据所有者对数据进行加密。发出数据查询时,授权查询用户对其查询请求进行加密,以保护查询的隐私。云服务器通过加密数据处理响应用户的查询请求,并将加密的查询 结果返回给用户。在此查询处理中,云服务器和未经授权的用户无法了解有关数据、查 询、结果和访问模式的任何信息。
目前,已经提出了一些支持对加密数据进行特定查询的方法,这些方法具有不同程 度的安全保证和效率,包括安全kNN查询、安全skyline查询和安全空间关键字查询等。除了上述方法外,现有技术中公开了安全Top-k查询,即安全检索给定评分函数值最大(或最小)的k个对象。为了获得更高的数据库可用性,当查询用户想知道为什么其期望的对 象没有出现在Top-k查询结果中时,就会提出一个“why-not”的问题。给定一组丢失的 对象,在Top-k查询中回答“why-not”问题,就是找到查询结果中包含丢失对象且改动 最小的精炼查询,这一问题最近受到了越来越多的关注。
然而,目前现有技术中海没有方法能够实现在保护数据隐私的前提下对丢失对象的 解释,即安全的回答“why-not”问题。
发明内容
鉴于此,本发明公开提供了一种保护隐私的Top-k查询why-not问题处理方法,以实 现在保护隐私的情况下定义并解决Top-k查询why-not问题;
本发明提供的技术方案,具体为,一种保护隐私的Top-k查询why-not问题处理方法, 给定加密的why-not问题{Epk(M),q0(Epk(k0),Epk(w0))},安全的Top-k查询why-not问题是 在密文中找到一个精炼的Top-k查询
Figure BDA0003030459610000021
其中,pk是非对称加密的公钥,该方法包括如下步骤:
1)安全计算丢失目标的初始排名;
2)基于初始排名,通过支配关系进行安全剪枝;
3)安全生成权重空间:
4)计算安全惩罚函数;
5)定义提前停止条件,得到最佳精炼查询。
具体地,该方法的系统模型包含三方:数据所有者、查询用户和云服务器;
所述数据所有者首先生成密钥K=<pk,sk>,其中pk是公钥,sk是私钥,在外包之前,数据所有者使用pk对数据进行加密,用pk将加密后的数据发送给C1,K=<pk,sk>发 送给C2
查询用户:在指定一个安全的Top-k查询
Figure BDA0003030459610000022
后,查询用户将缺失对象集Epk(M)发送到云端,根据top-k查询结果提出一个why-not请求;
云服务器:处理完安全的Top-k查询后,云服务器在接收到“why-not”问题时进行SWNkQ处理,并将加密后的精炼Top-k查询返回给相应的用户;
该方法的安全模型采用了两个非互通云C1和C2的框架,具体隐私要求包括:数据隐私、查询隐私、结果隐私、访问模式隐私。
具体地,该方法中引入安全子协议用于加密数据的基本计算,安全子协议在两个非 互通云C1和C2框架下工作,所述安全子协议包括安全的乘法SM、安全相等SEQ、安全 平方欧氏距离SSED、安全比较SCMP、安全三元条件操作STCO。
进一步地,该方法中定义STCO协议如下:
假设C1有私有输入Epk(d3),Epk(d4)和SCMP协议输出结果Epk([d1≤d2]),C2有私 钥,那么C1计算:
STCO(Epk(d3),Epk(d4),Epk([d1≤d2]))
=SM(Epk(d3),Epk([d1≤d2])*SM(Epk(d4),Epk(1)*Epk([d1≤d2])N-1)
因此,如果SCMP结果Epk([d1≤d2])为真,则返回Epk(d3),否则返回Epk(d4),而 不被C1知道。
进一步地,具体包括以下步骤:
1)服务器C1和C2首先计算丢失目标m的初始排名r0,其中,使用SEQ协议判断出 r0=0,则说明m不在数据集中;
2)基于初始排名r0对增加维度后加密的数据
Figure BDA0003030459610000031
进行剪枝,如果 Epk(pi[d+1])≥r0,将数据移出候选集合,其中pi[d+1]表示支配点的个数;
3)服务器C2随机抽样加密生成SWNkQ的权重空间Epk(S)并发送给C1
4)给定一个精炼查询
Figure BDA0003030459610000032
和用户上传的
Figure BDA0003030459610000033
C1首先计算
Figure BDA0003030459610000034
Epkw)=SM(Epk(1-α),Epk(r0-k0)),然后计 算q‘的惩罚函数值:
Figure BDA0003030459610000035
使用
Figure BDA0003030459610000036
计算惩罚函数;
5)对于每一个
Figure BDA0003030459610000037
C1计算得分函数值并进行排名,通过SCMP协议对比ηwΔwj
Figure BDA0003030459610000038
的大小关系,若
Figure BDA0003030459610000039
则跳出当前
Figure BDA00030304596100000310
计算出的排名ri与Δwj计算惩罚函数值;
其中,在计算排名时,通过SCMP协议比ηkΔkL
Figure BDA00030304596100000311
Figure BDA00030304596100000312
则跳出当前
Figure BDA00030304596100000313
6)对计算出的
Figure BDA00030304596100000314
和Epk(kmin)加上扰动,由C1生成扰动因子ε1
Figure BDA00030304596100000315
加密两个扰动因子并加到
Figure BDA0003030459610000041
和Epk(kmin)上得到
Figure BDA0003030459610000042
和Epk(kmed),将
Figure BDA0003030459610000043
和 Epk(kmed)发送给C2解密后发送给用户,将ε1
Figure BDA00030304596100000410
直接发送给用户,用户使用从C2得到的 结果减去从C1得到的扰动因子后得到最佳精炼查询
Figure BDA0003030459610000044
进一步地,所述步骤1)中,首先服务器C1计算得分函数,并使用SCMP比较得分 函数,服务器C1,C2合作计算Epk(r0)=Epk(r0)*Epk([scorei≤score0]),C1获得计算结果即 Epk(r0)。
进一步地,给定具有n个数据对象的数据集
Figure BDA00030304596100000411
每个数据对象
Figure BDA00030304596100000412
具有d个属性值
Figure BDA0003030459610000045
Top-k查询由三部分构成:结果集k,d维加权向量
Figure BDA0003030459610000046
和评分函数,假设评分函数为:
Figure BDA0003030459610000047
评分函数可以是任意单调函数,
Figure BDA00030304596100000413
存在约束:当i=1,2,…d时,∑w[i]=1并且 0≤w[i]≤1,Top-k的查询结果集是得分最小的k个对象。
进一步地,步骤2)中所述加密采用Pailier同态加密,采用Pailier密码系统,明文m由公钥加密为Epk(m),密文Epk(m)由私钥解密为Dsk(Epk(m));
同态加法:
Epk(m0)*Epk(m1)modN2=Epk(m0+m1)modN
数量乘法:
Epk(m0)m1modN2=Epk(m0*m1)modN。
进一步地,所述步骤3)加权向量的采样独立于why-not问题解释,对每一个why-not 问题解释过程都需要生成一组新的加权向量。
进一步地,所述步骤4)涉及的惩罚模型:
Figure BDA0003030459610000048
Figure BDA0003030459610000049
α∈[0,1]是一个平衡因子,表现用户对原始 查询q0上k和
Figure BDA0003030459610000052
变化的容忍度。此外,
Figure BDA0003030459610000051
通过
Figure BDA0003030459610000053
进行规范化,
Figure BDA0003030459610000054
为等价转换公式,其中r0
Figure BDA0003030459610000055
Figure BDA0003030459610000056
下的排名。
本发明提供的保护隐私的Top-k查询why-not问题处理方法(SWNkQ)。采用Paillier 密码系统来保证数据和查询的语义安全,并提出两个新的安全子协议安全协议和安全三 元条件操作协议(SCMP,STCO),连同其他安全子协议作为基础,以支持在密文中计算得 分函数和惩罚函数。然后,针对寻找全局最优精炼查询的计算方式,提出了一种安全的 加权空间生成方法,采用基于样本的求解方法来获得最优近似精炼查询。为了解决基本 方法的效率问题,我们进一步提出了基于支配关系的安全数据剪枝和早期停止条件。在基于支配关系的安全数据剪枝中,数据的被支配点的数量被加密并记录在每个对象的扩展属性维度中,这样,在不影响精炼查询的情况下,可以排除掉对结果没有影响的数据 对象。此外,基于对罚函数的观察,通过移项的方式得到两个关于最小排名和最大加权向 量变动的提前终止条件,提前停止条件可以跳过那些不优于当前查询的精炼查询。通过 分析证明了我们的方法的安全性并说明了计算复杂度,大量在真实数据集上的实验结果 证明了本发明提出方法的有效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能 限制本发明的公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例, 并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开实施例所述的系统模型结构示意图;
图2为本发明公开实施例所述的实验数据中在四个数据集上不同的初始排名对时间 的影响;
图3为本发明公开实施例所述的实验数据中在四个数据集上不同的初始结果集大小 对时间的影响;
图4为本发明公开实施例所述的实验数据中在四个数据集上不同的权重空间大小对 时间的影响。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附 图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如 所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。
本发明给定具有n个数据对象的数据集
Figure BDA0003030459610000066
每个数据对象
Figure BDA0003030459610000067
具有d个属性值
Figure BDA0003030459610000061
首先Top-k查询,Top-k查询由三部分构成:结果集k,d维加 权向量
Figure BDA0003030459610000062
和评分函数,假设本发明的评分函数为:
Figure BDA0003030459610000063
它可以是任意单调函数。
Figure BDA0003030459610000068
存在约束:当i=1,2,…d时,∑w[i]=1并且0≤w[i]≤1, Top-k的查询结果集是得分最小的k个对象。
用户可以使用
Figure BDA0003030459610000069
指定Top-k查询,并获取结果集。然后,用户提出在q0上缺失的对象集合
Figure BDA00030304596100000610
采用查询细化解决方案来解释“why-not”问题。即系 统将返回一个精炼的Top-k查询
Figure BDA00030304596100000611
使得M中的所有对象出现在q′的结果集中。
为了评估精炼查询的质量,定义一个惩罚模型:
Figure BDA0003030459610000064
其中
Figure BDA0003030459610000065
α∈[0,1]是一个平衡因子,表现用户对原始 查询q0上k和
Figure BDA00030304596100000612
变化的容忍度。此外,
Figure BDA00030304596100000613
通过
Figure BDA00030304596100000614
进行规范化,
Figure BDA00030304596100000615
为等价转换公式,其中r0
Figure BDA00030304596100000616
Figure BDA00030304596100000618
下的排名,注意,由于归一化因子是非负的,因此这种转换只影响惩罚函数的实值,而不会改变两个惩罚之间的比较结果。
定义1:Top-k查询why-not问题:给定一个why-not问题
Figure BDA00030304596100000617
其中M是缺失对象的非空集合,q0是用户的初始查询,一个Top-k查询why-not问题返回一个精炼Top-k查询,该查询在结果集中包含M且惩罚函数值最小。
定义2:安全的Top-k查询why-not问题解释方法(SWNkQ):给定一个加密的why-not问题
Figure BDA0003030459610000071
安全的Top-k查询why-not问题目的是在密文中找到 一个精炼的Top-k查询
Figure BDA0003030459610000072
pk是非对称加密的公钥。
系统模型:云中的SWNkQ系统模型包含三方:数据所有者、查询用户和云服务器,在相关领域中使用较多。图1所示的系统模型描述如下:
数据所有者:数据所有者首先生成密钥K=<pk,sk>,其中pk是公钥,sk是私钥。 在外包之前,数据所有者使用pk对数据进行加密,用pk将加密后的数据发送给C1, K=〈pk,sk〉发送给C2
查询用户:在指定一个安全的Top-k查询
Figure BDA0003030459610000073
后,查询用户将缺失对象集Epk(M)发送到云端,根据top-k查询结果提出一个why-not请求。
云服务器:处理完安全的Top-k查询后,云服务器在接收到“why-not”问题时进行SWNkQ处理,并将加密后的精炼Top-k查询返回给相应的用户。
为了提高系统的安全性,安全模型:我们采用了两个非互通云(C1和C2)的框架,在实践中,这些非互通云可以有竞争力的云服务提供商提供,如谷歌和亚马逊,这样知名 的公司互相勾结是不可能的。此外,我们假设查询用户是可信的,不会与云或其他用户 串谋。具体来说,隐私要求如下:
数据隐私,云对数据的明文一无所知。相应地,查询用户除了结果之外,对数据一无所知。
查询隐私,云服务器无法知道用户查询请求的明文。
结果隐私,查询结果的明文不应该被任何其他方了解,除了相应的查询用户。
访问模式隐私,精炼的查询结果的访问模式不应该显示给云服务器。
在本发明中,我们并不关注查询用户的访问控制和来自传输通道的攻击,我们假设 数据所有者是可信的,查询用户是经过良好授权的,到系统的通道是安全的。
本实施方案中涉及Pailier同态加密:采用Pailier同态加密作为基本的加密方法, 采用Pailier密码系统,明文m由公钥加密为Epk(m),密文Epk(m)由私钥解密为Dsk(Epk(m))。具体属性说明如下:
同态加法:
Epk(m0)*Epk(m1)modN2=Epk(m0+m1)modN
数量乘法:
Epk(m0)m1 modN2=Epk(m0*m1)modN
语义安全。Pailier密码系统在语义上被证明是安全的。换句话说,给定任何密文,对手不能推断出任何关于相应明文的信息。
基本安全子协议,本实施方案引入了几个安全子协议用于加密数据的基本计算,它 们在两个非互通云(C1和C2)框架下工作。此处省略了这些协议的安全性证明,如果有现成的解决方案,可以通过相关研究中的仿真和合成定理直接推导出来。
安全的乘法(SM),假设C1具有私有输入Epk(a)和Epk(b),C2拥有私钥,安全乘法 SM(Epk(a),Epk(b))是返回一个a*b的加密,即Epk(a*b)作为输出给C1。在协议期间,关 于a和b的任何信息都不会透露给C1和C2
安全相等(SEQ),假设C1具有私有输入Epk(a)和Epk(b),C2拥有私钥,安全相等 SEQ(Epk(a),Epk(b))是返回一个加密的布尔输出Epk([a==b])。在SEQ过程中,C1只能获得 Epk([a==b]),明文[a==b]不能透露给C1和C2
安全平方欧氏距离(SSED),假设C1有两个加密向量Epk(X)和Epk(Y),C2有私钥,X和Y是d维向量,Epk(X)和Epk(Y)可以表示为Epk(X)=〈Epk(x1),Epk(x2),...,Epk(xd)〉, Epk(Y)=〈Epk(y1),Epk(y2),...,Epk(yd)〉。安全平方欧氏距离(SSED)(Epk(X),Epk(Y))安全计算 Epk(||X-Y||2),其中||X-Y||表示X和Y之间的欧氏距离。在本协议中,C1和C2没有获得 任何关于X和Y的信息。
安全比较(SCMP),即安全比较(最小)协议,根据密文中的比较要求,只需要两个加密值之间的加密比较结果(小于或大于),而不需要加密值本身,这导致效率较低。为此, 本发明提出了一种新的SCMP协议,它只返回两个加密值之间的加密比较结果。
假设C1具有私有输入Epk(a)和Epk(b),C2具有私钥,C1首先生成一个随机数r∈Zn,并随机选择函数F(抛硬币)让F=0或F=1。因为F是C1随机选择的,所以它只被C1知道, 而C2不知道。利用SM,F,r来进行比较SCMP(Epk(d1),Epk(d2))可以安全地计算如下:
如果F=0,计算Epk(β)=(Epk(d1)*Epk(d2)N-1)r
如果F=1,计算Epk(β)=(Epk(d2)*Epk(d1)N-1)r
将Epk(β)发送到C2,C2解密Epk(β)得到β,如果β<0,C2设置γ=1,否则γ=0,在 对γ进行加密后,C2将Epk(γ)发送给C1。最后,根据选择的F,C1输出 Epk([d1≤d2])=Epk(β)作为结果,如果F=0,输出Epk([d1≤d2])=Epk(1)*Epk(γ)N-1
安全三元条件操作(STCO)。在SCMP和SM协议的基础上,我们进一步提出了一个 安全的三元条件操作协议。这个协议的主要思想是根据不同的条件安全地返回不同的值, 这与在编程语言(如C或Java)使用<condition>:<value1>:<value2>相似。使用SCMP协议的输出作为条件,我们定义STCO协议如下:
假设C1有私有输入Epk(d3),Epk(d4)和SCMP协议输出结果Epk([d1≤d2]),C2有私 钥,那么C1计算:
STCO(Epk(d3),Epk(d4),Epk([d1≤d2]))
=SM(Epk(d3),Epk([d1≤d2])*SM(Epk(d4),Epk(1)*Epk([d1≤d2])N-1)
因此,如果SCMP结果Epk([d1≤d2])为真,则返回Epk(d3),否则返回Epk(d4),而 不被C1知道。
一种保护隐私的Top-k查询why-not问题处理方法,该方法包括如下步骤:
1)安全计算丢失目标的初始排名;
在用户提出“why-not”问题后,需要找到丢失目标的初始排名。为了保证计算初始排名的过程中不泄露任何关于数据和查询的相关信息,借助安全乘协议(SM)和安全比较协议(SCMP)计算得分函数和比较得分函数值的大小,达到保护数据隐私和查询隐私的目的;
具体为,在SWNkQ算法过程中,为了计算惩罚函数的初始值,要先获得丢失目标 在加权向量
Figure BDA0003030459610000101
下的排名r0。为了获得r0,C1要先计算得分函数并使用SCMP比较得分函 数,C1,C2合作计算Epk(r0)=Epk(r0)*Epk([scorei≤score0]),C1获得计算结果即Epk(r0)。
2)基于初始排名,通过支配关系进行安全剪枝;
为了提高效率,减少需要计算数据集中数据点的数量,本发明依据已有的安全数据 支配关系计算提出了一种更高效的安全数据支配关系计算方式,借助安全比较协议(SCMP)实现安全的筛选数据集;
在数据集中,存在两个数据
Figure BDA0003030459610000102
如果有p1[i]≤p2[i]且至少一个维度上存在p1[i]<p2[i],我们就认为
Figure BDA0003030459610000103
支配
Figure BDA0003030459610000104
这种支配关系深入研究并广泛应用于skyline查询中。 如果
Figure BDA0003030459610000105
支配
Figure BDA0003030459610000106
无论在任何加权向量下,
Figure BDA0003030459610000107
的得分函数都是优于
Figure BDA0003030459610000108
我们可以得出结论, 支配丢失对象m的点得分一定优于m,得分优于m的点排名一定高于m。因此,我们只 要计算支配m的点,就可以对数据集进行筛选。
在现有技术中提出了一种安全支配关系计算协议(SDOM)用来计算密文下的支配关 系。然而,用安全协议计算支配关系开销很大。此外,对数据集进行筛选并不需要记录支配点本身,只需要记录支配点的个数。根据这一性质,在数据拥有者将数据加密发送
到C1之前,对每一个
Figure BDA0003030459610000109
计算支配它的点的个数,并对每个数据在末位添加一个维度以储 存支配点的个数pi[d+1]。最后,数据拥有者对每一个扩充维度后的数据进行加密并上传 到C1
3)安全生成权重空间:
为了获得较好的近似答案,服务器C2随机抽样加密一组加权向量构成权重空间并发 送给服务器C1,C1并不知道权重空间的具体值,C2并不知道最终采用了哪组加权向量,所以这个过程对C1和C2都是安全的;
为了减少数据所有者的计算和通信开销,设计了一种安全的方法,利用C1和C2的合作,支持随机抽样加密加权向量以生成安全的加权空间。具体方法如下,C2随机抽样加 密加权向量生成加权空间Epk(S)并将Epk(S)发送到C1。需要注意的是,加权向量的采样 独立于why-not问题解释,对每一个why-not问题解释过程都需要生成一组新的加权向量。 因为
Figure BDA0003030459610000111
是由C2随机抽样加密的,C1不知道S。同时,C2也不知道C1采用了哪一个加 权向量,所以C2也不知道最后选取的加权向量的值。因此,C1获得Epk(S)是安全的。
4)计算安全惩罚函数;
为了评价精炼查询的优劣,使用惩罚函数值作为判别条件,惩罚函数值越小的精炼 查询我们认为与初始查询的改动最小,最终在所有的精炼查询中返回惩罚函数值最小的 精炼查询。
为了找到惩罚函数值最小的精炼查询,C1需要计算每一个加权向量下的惩罚函数值。 给定一个精炼查询
Figure BDA0003030459610000112
和用户上传的
Figure BDA0003030459610000113
Epk(1-α),C1首 先计算
Figure BDA0003030459610000114
Epkw)=SM(Epk(1-α),Epk(r0-k0)),然后计算q‘的 惩罚函数值:
Figure BDA0003030459610000115
我们使用
Figure BDA0003030459610000116
计算惩罚函数而不是
Figure BDA0003030459610000117
并不影响惩罚函数值的大小关系, 使用
Figure BDA0003030459610000118
更方便计算惩罚函数值。
5)定义提前停止条件,得到最佳精炼查询。
通过对惩罚函数进行移项我们可以发现满足一定条件的精炼查询一定不能小于当前 精炼查询的惩罚函数值,对于这样的精炼查询可以提前停止并跳过,通过提前停止条件 可以大大提高效率。
对于惩罚函数计算,令
Figure BDA0003030459610000119
ηw=(1-α)(r0-k0),惩罚函数计算公式变为:
Figure BDA00030304596100001110
我们对惩罚函数计算公式简单变形可以得到
Figure BDA00030304596100001111
Figure BDA00030304596100001112
通过观察m[d+1]可以得到m的最小排名,如果m[d+1]≤k0时,说明m可以出现在精炼查询的结果中而不用修改k0。因此, 使用max{m[d+1]-k0,0}作为ΔkL的值,给出当前最小惩罚函数值Penmin,对每一个
Figure BDA0003030459610000121
如果ηwΔwj大于
Figure BDA0003030459610000122
则不能得到一个小于当前惩罚函数值的精炼查询, 当前
Figure BDA0003030459610000123
可以跳过。
同样的,给定一个Penmin,同样可以使用
Figure BDA0003030459610000124
来限制ηkΔrj。如果ηkΔrj大于
Figure BDA0003030459610000125
同样意味着我们得不到一个惩罚函数值更小的精炼查询。通 过以上两个条件,我们可以更早的停止当前精炼查询的计算。
有增加维度后加密的数据
Figure BDA0003030459610000126
和加密的why-not查询请求
Figure BDA0003030459610000127
C1和C2首先计算丢失目标m的初始排名r0。如果使用 SEQ协议判断出r0=0,则说明m不在数据集中。有r0后对数据
Figure BDA0003030459610000128
进行剪枝,如果 Epk(pi[d+1])≥r0,我们将数据移出候选集合。然后C2随机抽样加密生成SWNkQ的权重 空间Epk(S)并发送给C1,对于每一个
Figure BDA0003030459610000129
C1计算得分函数值并进行排名,通过计算 出的排名ri与Δwj计算惩罚函数值。在计算排名之前,通过SCMP协议比ηwΔwj
Figure BDA00030304596100001210
的大小关系,较若
Figure BDA00030304596100001211
则跳出当前
Figure BDA00030304596100001212
在计算排名时,通过SCMP协议比ηkΔkL
Figure BDA00030304596100001213
Figure BDA00030304596100001214
则跳出当前
Figure BDA00030304596100001215
最后,我们对计算出的
Figure BDA00030304596100001216
和 Epk(kmin)加上扰动,由C1生成扰动因子ε1
Figure BDA00030304596100001217
加密两个扰动因子并加到
Figure BDA00030304596100001218
和 Epk(kmin)上得到
Figure BDA00030304596100001219
和Epk(kmed),将
Figure BDA00030304596100001220
和Epk(kmed)发送给C2解密后发送给用 户,将ε1
Figure BDA00030304596100001221
直接发送给用户,用户使用从C2得到的结果减去从C1得到的扰动因子后得 到最佳精炼查询
Figure BDA00030304596100001222
本发明首次解决了外包数据场景中Top-k查询“why-not”问题,并通过实验验证了本发明具有较好的可用性。同时,为了更好地说明本发明的效率,在三个真实数据集和 一个随机生成数据集上实验说明算法的可用性。
实验设置如下:使用一台服务器作为云服务器,其配置为两颗Intel(R)Xeon(R)Silver 4110Eight-Core CPU 21GHz和128G内存运行Ubuntu1004LTS。实验数据集为真实NBA 球员数据,电影评分数据,销售数据和一个随机生成的数据集。分别具有五个属性维度4500条数据,四个属性维度10000条数据,四个属性维度16000条数据和三个属性维度100000条数据。
下面通过分析实验数据来说明本发明中算法的性能。
初始排名,图2展示了在四个数据集上不同的初始排名对时间的影响,在所有数据集上都可以观察到的规律是时间随着排名的增加而增加。不同的数据集间也有不同的情况,NBA数据集相对来说耗时最少,因为NBA数据集里的数据最少。在rand数据集上 查询是比较高效的,而在Movie数据集上花费的时间比较长,可能是因为剪枝条件和属 性维度比较大。不同的α也呈现不同的时间,总的来说NBA,Sales和rand数据集对α 没那么敏感,Movie数据集受α的影响比较大。
初始结果集大小,图3展示了在四个数据集上不同的初始结果集大小对时间的影响。 与初始排名不同的是,越大的结果集运行时间越短,因为结果集越大,丢失目标出现在结果集的时间越早,运行时间越短。当k=40的时候,运行时间急剧下降,因为越大的k 剪枝效果越好。
权重空间大小。图4展示了在四个数据集上不同的权重空间大小对时间的影响,可以观察到的是在所有的数据集上,权重空间越大,运行时间越长,因为越多的加权向量 代表循环的次数越多,运行时间越长。Movie数据集与rand数据集相比需要更长的运行 时间,因为rand数据集属性维度更少,支配关系计算能筛选到更多的点。
综上,本实施方案实现了在外包场景中实现对于“why-not”问题的解释,同时保证数据隐私,查询隐私和解释过程中不泄露任何的相关信息;
在加密的数据对象上高效地实现对于“why-not”问题的解释,使外包场景中的数据 对象能够得到有效的利用;
在保证数据隐私安全的前提下,满足实际应用中返回符合用户要求的Top-k查询。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它 实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权 利要求指出。

Claims (10)

1.一种保护隐私的Top-k查询why-not问题处理方法,给定加密的why-not问题
Figure FDA0003030459600000011
安全的Top-k查询why-not问题是在密文中找到一个精炼的Top-k查询
Figure FDA0003030459600000012
其中,pk是非对称加密的公钥,其特征在于,该方法包括如下步骤:
1)安全计算丢失目标的初始排名;
2)基于初始排名,通过支配关系进行安全剪枝;
3)安全生成权重空间:
4)计算安全惩罚函数;
5)定义提前停止条件,得到精炼查询。
2.根据权利要求1所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,该方法的系统模型包含三方:数据所有者、查询用户和云服务器;
所述数据所有者首先生成密钥K=<pk,sk>,其中pk是公钥,sk是私钥,在外包之前,数据所有者使用pk对数据进行加密,用pk将加密后的数据发送给C1,K=<pk,sk>发送给C2
查询用户:在指定一个安全的Top-k查询
Figure FDA0003030459600000013
后,查询用户将缺失对象集Epk(M)发送到云端,根据top-k查询结果提出一个why-not请求;
云服务器:处理完安全的Top-k查询后,云服务器在接收到“why-not”问题时进行SWNkQ处理,并将加密后的精炼Top-k查询返回给相应的用户;
该方法的安全模型采用了两个非互通云C1和C2的框架,具体隐私要求包括:数据隐私、查询隐私、结果隐私、访问模式隐私。
3.根据权利要求1所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,该方法中引入安全子协议用于加密数据的基本计算,安全子协议在两个非互通云C1和C2框架下工作,所述安全子协议包括安全的乘法SM、安全相等SEQ、安全平方欧氏距离SSED、安全比较SCMP、安全三元条件操作STCO。
4.根据权利要求3所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,该方法中定义STCO协议如下:
假设C1有私有输入Epk(d3),Epk(d4)和SCMP协议输出结果Epk([d1≤d2]),C2有私钥,那么C1计算:
STCO(Epk(d3),Epk(d4),Epk([d1≤d2]))
=SM(Epk(d3),Epk([d1≤d2])*SM(Epk(d4),Epk(1)*Epk([d1≤d2])N-1)
因此,如果SCMP结果Epk([d1≤d2])为真,则返回Epk(d3),否则返回Epk(d4),而不被C1知道。
5.根据权利要求1-4所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于:具体包括以下步骤:
1)服务器C1和C2首先计算丢失目标m的初始排名r0,其中,使用SEQ协议判断出r0=0,则说明m不在数据集中;
2)基于初始排名r0对增加维度后加密的数据
Figure FDA0003030459600000021
进行剪枝,如果Epk(pi[d+1])≥r0,将数据移出候选集合,其中pi[d+1]表示支配点的个数;
3)服务器C2随机抽样加密生成SWNkQ的权重空间Epk(S)并发送给C1
4)给定一个精炼查询
Figure FDA0003030459600000022
和用户上传的
Figure FDA0003030459600000023
Epk(1-α),C1首先计算
Figure FDA0003030459600000024
Epkw)=SM(Epk(1-α),Epk(r0-k0)),然后计算q‘的惩罚函数值:
Figure FDA0003030459600000025
使用
Figure FDA0003030459600000026
计算惩罚函数;
5)对于每一个
Figure FDA0003030459600000027
C1计算得分函数值并进行排名,通过SCMP协议对比ηwΔwj
Figure FDA0003030459600000028
的大小关系,若
Figure FDA0003030459600000029
则跳出当前
Figure FDA00030304596000000210
计算出的排名ri与Δwj计算惩罚函数值;
其中,在计算排名时,通过SCMP协议比ηkΔkL
Figure FDA0003030459600000031
Figure FDA0003030459600000032
则跳出当前
Figure FDA0003030459600000033
6)对计算出的
Figure FDA0003030459600000034
和Epk(kmin)加上扰动,由C1生成扰动因子ε1
Figure FDA0003030459600000035
加密两个扰动因子并加到
Figure FDA0003030459600000036
和Epk(kmin)上得到
Figure FDA0003030459600000037
和Epk(kmed),将
Figure FDA0003030459600000038
和Epk(kmed)发送给C2解密后发送给用户,将ε1
Figure FDA0003030459600000039
直接发送给用户,用户使用从C2得到的结果减去从C1得到的扰动因子后得到最佳精炼查询
Figure FDA00030304596000000310
6.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,所述步骤1)中,首先服务器C1计算得分函数,并使用SCMP比较得分函数,服务器C1,C2合作计算Epk(r0)=Epk(r0)*Epk([scorei≤score0]),C1获得计算结果即Epk(r0)。
7.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,给定具有n个数据对象的数据集
Figure FDA00030304596000000311
每个数据对象
Figure FDA00030304596000000312
具有d个属性值
Figure FDA00030304596000000313
Top-k查询由三部分构成:结果集k,d维加权向量
Figure FDA00030304596000000314
和评分函数,假设评分函数为:
Figure FDA00030304596000000315
评分函数可以是任意单调函数,
Figure FDA00030304596000000316
存在约束:当i=1,2,…d时,∑w[i]=1并且0≤w[i]≤1,Top-k的查询结果集是得分最小的k个对象。
8.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,步骤2)中所述加密采用Pailier同态加密,采用Pailier密码系统,明文m由公钥加密为Epk(m),密文Epk(m)由私钥解密为Dsk(Epk(m));
同态加法:
Epk(m0)*Epk(m1)mod N2=Epk(m0+m1)mod N
数量乘法:
Epk(m0)m1mod N2=Epk(m0*m1)mod N。
9.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,所述步骤3)加权向量的采样独立于why-not问题解释,对每一个why-not问题解释过程都需要生成一组新的加权向量。
10.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法,其特征在于,所述步骤4)涉及的惩罚模型:
Figure FDA0003030459600000041
其中Δk=max(0,k′-k0),
Figure FDA0003030459600000042
α∈[0,1]是一个平衡因子,表现用户对原始查询q0上k和
Figure FDA0003030459600000043
变化的容忍度。此外,
Figure FDA0003030459600000044
通过
Figure FDA0003030459600000045
进行规范化,
Figure FDA0003030459600000046
为等价转换公式,其中r0
Figure FDA0003030459600000047
Figure FDA0003030459600000048
下的排名。
CN202110428365.4A 2021-04-21 2021-04-21 一种保护隐私的Top-k查询why-not问题处理方法 Pending CN113158209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110428365.4A CN113158209A (zh) 2021-04-21 2021-04-21 一种保护隐私的Top-k查询why-not问题处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110428365.4A CN113158209A (zh) 2021-04-21 2021-04-21 一种保护隐私的Top-k查询why-not问题处理方法

Publications (1)

Publication Number Publication Date
CN113158209A true CN113158209A (zh) 2021-07-23

Family

ID=76867493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110428365.4A Pending CN113158209A (zh) 2021-04-21 2021-04-21 一种保护隐私的Top-k查询why-not问题处理方法

Country Status (1)

Country Link
CN (1) CN113158209A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542260A (zh) * 2023-07-05 2023-08-04 中国民用航空飞行学院 一种基于自然语言大模型的翻译文本质量评估方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008270A (zh) * 2019-11-18 2020-04-14 中南民族大学 采用AkC解决SKQwhy-not问题的方法及系统
CN111026750A (zh) * 2019-11-18 2020-04-17 中南民族大学 用AIR树解决SKQwhy-not问题的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008270A (zh) * 2019-11-18 2020-04-14 中南民族大学 采用AkC解决SKQwhy-not问题的方法及系统
CN111026750A (zh) * 2019-11-18 2020-04-17 中南民族大学 用AIR树解决SKQwhy-not问题的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李松;窦雅男;郝晓红;张丽平;郝忠孝;: "道路网环境下K-支配空间Skyline查询方法", 计算机研究与发展, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542260A (zh) * 2023-07-05 2023-08-04 中国民用航空飞行学院 一种基于自然语言大模型的翻译文本质量评估方法及系统
CN116542260B (zh) * 2023-07-05 2023-09-26 中国民用航空飞行学院 一种基于自然语言大模型的翻译文本质量评估方法及系统

Similar Documents

Publication Publication Date Title
US11567950B2 (en) System and method for confidentiality-preserving rank-ordered search
Vijayakumar et al. RETRACTED ARTICLE: E-Health Cloud Security Using Timing Enabled Proxy Re-Encryption
Cao et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data
Liu et al. Toward highly secure yet efficient KNN classification scheme on outsourced cloud data
Wu et al. Privacy preserving k-nearest neighbor classification over encrypted database in outsourced cloud environments
CN108363689B (zh) 面向混合云的隐私保护多关键词Top-k密文检索方法及系统
CN109615021B (zh) 一种基于k均值聚类的隐私信息保护方法
Wu et al. An efficient searchable encryption against keyword guessing attacks for sharable electronic medical records in cloud-based system
Hu et al. Messages in a concealed bottle: Achieving query content privacy with accurate location-based services
Yi et al. Privacy-preserving user profile matching in social networks
Zhang et al. Inference attack-resistant e-healthcare cloud system with fine-grained access control
Badsha et al. Privacy preserving user based web service recommendations
Liu et al. EMK-ABSE: Efficient multikeyword attribute-based searchable encryption scheme through cloud-edge coordination
Pedersen et al. Secret charing vs. encryption-based techniques for privacy preserving data mining
Shu et al. SybSub: Privacy-preserving expressive task subscription with sybil detection in crowdsourcing
Andola et al. A secure searchable encryption scheme for cloud using hash-based indexing
Guo et al. A provably secure and efficient range query scheme for outsourced encrypted uncertain data from cloud-based Internet of Things systems
Gahi et al. Privacy preserving scheme for location-based services
CN115767722A (zh) 一种云环境下基于内积函数加密的室内定位隐私保护方法
Park et al. PKIS: practical keyword index search on cloud datacenter
CN113158209A (zh) 一种保护隐私的Top-k查询why-not问题处理方法
Zhu et al. Secure k-NN query on encrypted cloud database without key-sharing
Yan et al. Privacy-preserving content-based image retrieval in edge environment
Zhang et al. Efficient personalized search over encrypted data for mobile edge-assisted cloud storage
Shankar et al. An optimal lightweight cryptographic hash function for secure image transmission in wireless sensor networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination