CN113158209A

CN113158209A - 一种保护隐私的Top-k查询why-not问题处理方法

Info

Publication number: CN113158209A
Application number: CN202110428365.4A
Authority: CN
Inventors: 滕一平; 赵炜煜; 许莉; 范纯龙; 丁国辉; 郑志勇; 张荣博; 李胜宇; 施展; 孙悦
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-23

Abstract

本发明公开了一种保护隐私的Top‑k查询why‑not问题处理方法，采用Paillier密码系统来保证数据和查询的语义安全,并提出两个新的安全子协议安全比较协议和安全三元条件操作协议(SCMP,STCO),连同其他安全子协议作为基础，以支持在密文中计算得分函数和惩罚函数。然后，针对寻找全局最优精炼查询的计算方式，提出了一种安全的加权空间生成方法，采用基于样本的求解方法来获得最优近似精炼查询。通过分析证明了该方法的安全性并说明了计算复杂度，大量在真实数据集上的实验结果证明了该发明方法提出方法的有效性。

Description

一种保护隐私的Top-k查询why-not问题处理方法

技术领域

本发明公开涉及数据处理技术领域，尤其涉及一种保护隐私的Top-k查询why-not问题处理方法。

背景技术

近年来，云计算作为一种新兴的计算方式，因其强大的计算和存储能力吸引了许多个人和组织。外包数据和云计算具有很大的灵活性，也节省了大量的成本和管理开销，促使更多的数据拥有者在云中提供数据服务。但是，出于隐私方面的考虑，需要保证敏感数据的机密性不受无法完全信任的云服务器和未授权用户的影响。

要对云和未授权用户保证外包数据的机密性，一个简单的解决方案是在外包之前由数据所有者对数据进行加密。发出数据查询时，授权查询用户对其查询请求进行加密，以保护查询的隐私。云服务器通过加密数据处理响应用户的查询请求，并将加密的查询结果返回给用户。在此查询处理中，云服务器和未经授权的用户无法了解有关数据、查询、结果和访问模式的任何信息。

目前，已经提出了一些支持对加密数据进行特定查询的方法，这些方法具有不同程度的安全保证和效率，包括安全kNN查询、安全skyline查询和安全空间关键字查询等。除了上述方法外，现有技术中公开了安全Top-k查询，即安全检索给定评分函数值最大(或最小)的k个对象。为了获得更高的数据库可用性，当查询用户想知道为什么其期望的对象没有出现在Top-k查询结果中时，就会提出一个“why-not”的问题。给定一组丢失的对象，在Top-k查询中回答“why-not”问题，就是找到查询结果中包含丢失对象且改动最小的精炼查询，这一问题最近受到了越来越多的关注。

然而，目前现有技术中海没有方法能够实现在保护数据隐私的前提下对丢失对象的解释，即安全的回答“why-not”问题。

发明内容

鉴于此，本发明公开提供了一种保护隐私的Top-k查询why-not问题处理方法，以实现在保护隐私的情况下定义并解决Top-k查询why-not问题；

本发明提供的技术方案，具体为，一种保护隐私的Top-k查询why-not问题处理方法，给定加密的why-not问题{E_pk(M),q₀(E_pk(k₀),E_pk(w₀))}，安全的Top-k查询why-not问题是在密文中找到一个精炼的Top-k查询

其中，pk是非对称加密的公钥，该方法包括如下步骤：

1)安全计算丢失目标的初始排名；

2)基于初始排名，通过支配关系进行安全剪枝；

3)安全生成权重空间：

4)计算安全惩罚函数；

5)定义提前停止条件，得到最佳精炼查询。

具体地，该方法的系统模型包含三方:数据所有者、查询用户和云服务器；

所述数据所有者首先生成密钥K＝<pk,sk>，其中pk是公钥，sk是私钥，在外包之前，数据所有者使用pk对数据进行加密，用pk将加密后的数据发送给C₁,K＝<pk,sk>发送给C₂；

查询用户：在指定一个安全的Top-k查询

后，查询用户将缺失对象集E_pk(M)发送到云端，根据top-k查询结果提出一个why-not请求；

云服务器：处理完安全的Top-k查询后，云服务器在接收到“why-not”问题时进行SWNkQ处理，并将加密后的精炼Top-k查询返回给相应的用户；

该方法的安全模型采用了两个非互通云C₁和C₂的框架，具体隐私要求包括：数据隐私、查询隐私、结果隐私、访问模式隐私。

具体地，该方法中引入安全子协议用于加密数据的基本计算，安全子协议在两个非互通云C₁和C₂框架下工作，所述安全子协议包括安全的乘法SM、安全相等SEQ、安全平方欧氏距离SSED、安全比较SCMP、安全三元条件操作STCO。

进一步地，该方法中定义STCO协议如下：

假设C₁有私有输入E_pk(d₃)，E_pk(d₄)和SCMP协议输出结果E_pk([d₁≤d₂])，C₂有私钥,那么C₁计算：

STCO(E_pk(d₃),E_pk(d₄),E_pk([d₁≤d₂]))

＝SM(E_pk(d₃),E_pk([d₁≤d₂])*SM(E_pk(d₄),E_pk(1)*E_pk([d₁≤d₂])^N-1)

因此，如果SCMP结果E_pk([d₁≤d₂])为真，则返回E_pk(d₃)，否则返回E_pk(d₄)，而不被C₁知道。

进一步地，具体包括以下步骤：

1)服务器C₁和C₂首先计算丢失目标m的初始排名r₀，其中，使用SEQ协议判断出 r₀＝0，则说明m不在数据集中；

2)基于初始排名r₀对增加维度后加密的数据

进行剪枝，如果 E_pk(p_i[d+1])≥r₀，将数据移出候选集合，其中p_i[d+1]表示支配点的个数；

3)服务器C₂随机抽样加密生成SWNkQ的权重空间E_pk(S)并发送给C₁，

4)给定一个精炼查询

和用户上传的

C₁首先计算

E_pk(η_w)＝SM(E_pk(1-α),E_pk(r₀-k₀))，然后计算q‘的惩罚函数值：

使用

计算惩罚函数；

5)对于每一个

C₁计算得分函数值并进行排名，通过SCMP协议对比η_wΔw_j和

的大小关系，若

则跳出当前

计算出的排名r_i与Δw_j计算惩罚函数值；

其中，在计算排名时，通过SCMP协议比η_kΔk_L和

若

则跳出当前

6)对计算出的

和E_pk(k_min)加上扰动，由C₁生成扰动因子ε₁和

加密两个扰动因子并加到

和E_pk(k_min)上得到

和E_pk(k_med)，将

和 E_pk(k_med)发送给C₂解密后发送给用户，将ε₁和

直接发送给用户，用户使用从C₂得到的结果减去从C₁得到的扰动因子后得到最佳精炼查询

进一步地，所述步骤1)中，首先服务器C₁计算得分函数，并使用SCMP比较得分函数，服务器C₁，C₂合作计算E_pk(r₀)＝E_pk(r₀)*E_pk([score_i≤score₀])，C₁获得计算结果即 E_pk(r₀)。

进一步地，给定具有n个数据对象的数据集

每个数据对象

具有d个属性值

Top-k查询由三部分构成：结果集k，d维加权向量

和评分函数，假设评分函数为:

评分函数可以是任意单调函数，

存在约束:当i＝1,2，…d时，∑w[i]＝1并且 0≤w[i]≤1，Top-k的查询结果集是得分最小的k个对象。

进一步地，步骤2)中所述加密采用Pailier同态加密，采用Pailier密码系统，明文m由公钥加密为E_pk(m)，密文E_pk(m)由私钥解密为D_sk(E_pk(m))；

同态加法：

E_pk(m₀)*E_pk(m₁)modN²＝E_pk(m₀+m₁)modN

数量乘法：

E_pk(m₀)^m1modN²＝E_pk(m₀*m₁)modN。

进一步地，所述步骤3)加权向量的采样独立于why-not问题解释，对每一个why-not 问题解释过程都需要生成一组新的加权向量。

进一步地，所述步骤4)涉及的惩罚模型：

其

α∈[0,1]是一个平衡因子，表现用户对原始查询q₀上k和

变化的容忍度。此外,

通过

进行规范化，

为等价转换公式,其中r₀是

在

下的排名。

本发明提供的保护隐私的Top-k查询why-not问题处理方法(SWNkQ)。采用Paillier 密码系统来保证数据和查询的语义安全,并提出两个新的安全子协议安全协议和安全三元条件操作协议(SCMP,STCO)，连同其他安全子协议作为基础，以支持在密文中计算得分函数和惩罚函数。然后，针对寻找全局最优精炼查询的计算方式，提出了一种安全的加权空间生成方法，采用基于样本的求解方法来获得最优近似精炼查询。为了解决基本方法的效率问题，我们进一步提出了基于支配关系的安全数据剪枝和早期停止条件。在基于支配关系的安全数据剪枝中，数据的被支配点的数量被加密并记录在每个对象的扩展属性维度中，这样，在不影响精炼查询的情况下，可以排除掉对结果没有影响的数据对象。此外,基于对罚函数的观察，通过移项的方式得到两个关于最小排名和最大加权向量变动的提前终止条件，提前停止条件可以跳过那些不优于当前查询的精炼查询。通过分析证明了我们的方法的安全性并说明了计算复杂度，大量在真实数据集上的实验结果证明了本发明提出方法的有效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开实施例所述的系统模型结构示意图；

图2为本发明公开实施例所述的实验数据中在四个数据集上不同的初始排名对时间的影响；

图3为本发明公开实施例所述的实验数据中在四个数据集上不同的初始结果集大小对时间的影响；

图4为本发明公开实施例所述的实验数据中在四个数据集上不同的权重空间大小对时间的影响。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。

本发明给定具有n个数据对象的数据集

每个数据对象

具有d个属性值

首先Top-k查询，Top-k查询由三部分构成：结果集k，d维加权向量

和评分函数，假设本发明的评分函数为:

它可以是任意单调函数。

存在约束:当i＝1,2，…d时，∑w[i]＝1并且0≤w[i]≤1， Top-k的查询结果集是得分最小的k个对象。

用户可以使用

指定Top-k查询，并获取结果集。然后，用户提出在q₀上缺失的对象集合

采用查询细化解决方案来解释“why-not”问题。即系统将返回一个精炼的Top-k查询

使得M中的所有对象出现在q′的结果集中。

为了评估精炼查询的质量，定义一个惩罚模型：

其中

α∈[0,1]是一个平衡因子，表现用户对原始查询q₀上k和

变化的容忍度。此外,

通过

进行规范化，

为等价转换公式,其中r₀是

在

下的排名，注意，由于归一化因子是非负的，因此这种转换只影响惩罚函数的实值，而不会改变两个惩罚之间的比较结果。

定义1:Top-k查询why-not问题：给定一个why-not问题

其中M是缺失对象的非空集合，q₀是用户的初始查询,一个Top-k查询why-not问题返回一个精炼Top-k查询，该查询在结果集中包含M且惩罚函数值最小。

定义2:安全的Top-k查询why-not问题解释方法(SWNkQ)：给定一个加密的why-not问题

安全的Top-k查询why-not问题目的是在密文中找到一个精炼的Top-k查询

pk是非对称加密的公钥。

系统模型：云中的SWNkQ系统模型包含三方:数据所有者、查询用户和云服务器，在相关领域中使用较多。图1所示的系统模型描述如下：

数据所有者：数据所有者首先生成密钥K＝<pk,sk>，其中pk是公钥，sk是私钥。在外包之前，数据所有者使用pk对数据进行加密，用pk将加密后的数据发送给C₁, K＝〈pk,sk〉发送给C₂。

查询用户：在指定一个安全的Top-k查询

后，查询用户将缺失对象集E_pk(M)发送到云端，根据top-k查询结果提出一个why-not请求。

云服务器：处理完安全的Top-k查询后，云服务器在接收到“why-not”问题时进行SWNkQ处理，并将加密后的精炼Top-k查询返回给相应的用户。

为了提高系统的安全性，安全模型：我们采用了两个非互通云(C₁和C₂)的框架，在实践中，这些非互通云可以有竞争力的云服务提供商提供，如谷歌和亚马逊，这样知名的公司互相勾结是不可能的。此外，我们假设查询用户是可信的，不会与云或其他用户串谋。具体来说，隐私要求如下:

数据隐私，云对数据的明文一无所知。相应地，查询用户除了结果之外，对数据一无所知。

查询隐私，云服务器无法知道用户查询请求的明文。

结果隐私，查询结果的明文不应该被任何其他方了解，除了相应的查询用户。

访问模式隐私，精炼的查询结果的访问模式不应该显示给云服务器。

在本发明中，我们并不关注查询用户的访问控制和来自传输通道的攻击，我们假设数据所有者是可信的，查询用户是经过良好授权的，到系统的通道是安全的。

本实施方案中涉及Pailier同态加密：采用Pailier同态加密作为基本的加密方法，采用Pailier密码系统，明文m由公钥加密为E_pk(m)，密文E_pk(m)由私钥解密为D_sk(E_pk(m))。具体属性说明如下：

同态加法：

E_pk(m₀)*E_pk(m₁)modN²＝E_pk(m₀+m₁)modN

数量乘法：

E_pk(m₀)^m1 modN²＝E_pk(m₀*m₁)modN

语义安全。Pailier密码系统在语义上被证明是安全的。换句话说，给定任何密文，对手不能推断出任何关于相应明文的信息。

基本安全子协议，本实施方案引入了几个安全子协议用于加密数据的基本计算，它们在两个非互通云(C₁和C₂)框架下工作。此处省略了这些协议的安全性证明，如果有现成的解决方案，可以通过相关研究中的仿真和合成定理直接推导出来。

安全的乘法(SM)，假设C₁具有私有输入E_pk(a)和E_pk(b)，C₂拥有私钥，安全乘法 SM(E_pk(a),E_pk(b))是返回一个a*b的加密，即E_pk(a*b)作为输出给C₁。在协议期间，关于a和b的任何信息都不会透露给C₁和C₂。

安全相等(SEQ)，假设C₁具有私有输入E_pk(a)和E_pk(b)，C₂拥有私钥，安全相等 SEQ(E_pk(a),E_pk(b))是返回一个加密的布尔输出E_pk([a＝＝b])。在SEQ过程中，C₁只能获得 E_pk([a＝＝b])，明文[a＝＝b]不能透露给C₁和C₂。

安全平方欧氏距离(SSED)，假设C₁有两个加密向量E_pk(X)和E_pk(Y)，C₂有私钥,X和Y是d维向量，E_pk(X)和E_pk(Y)可以表示为E_pk(X)＝〈E_pk(x₁),E_pk(x₂),...,E_pk(x_d)〉， E_pk(Y)＝〈E_pk(y₁),E_pk(y₂),...,E_pk(y_d)〉。安全平方欧氏距离(SSED)(E_pk(X),E_pk(Y))安全计算 E_pk(||X-Y||²)，其中||X-Y||表示X和Y之间的欧氏距离。在本协议中，C₁和C₂没有获得任何关于X和Y的信息。

安全比较(SCMP)，即安全比较(最小)协议，根据密文中的比较要求，只需要两个加密值之间的加密比较结果(小于或大于)，而不需要加密值本身，这导致效率较低。为此，本发明提出了一种新的SCMP协议，它只返回两个加密值之间的加密比较结果。

假设C₁具有私有输入E_pk(a)和E_pk(b)，C₂具有私钥，C₁首先生成一个随机数r∈Z_n，并随机选择函数F(抛硬币)让F＝0或F＝1。因为F是C₁随机选择的，所以它只被C₁知道，而C₂不知道。利用SM，F，r来进行比较SCMP(E_pk(d₁),E_pk(d₂))可以安全地计算如下:

如果F＝0，计算E_pk(β)＝(E_pk(d₁)*E_pk(d₂)^N-1)^r；

如果F＝1，计算E_pk(β)＝(E_pk(d₂)*E_pk(d₁)^N-1)^r；

将E_pk(β)发送到C₂,C₂解密E_pk(β)得到β，如果β＜0,C₂设置γ＝1，否则γ＝0，在对γ进行加密后，C₂将E_pk(γ)发送给C₁。最后，根据选择的F,C₁输出 E_pk([d₁≤d₂])＝E_pk(β)作为结果，如果F＝0，输出E_pk([d₁≤d₂])＝E_pk(1)*E_pk(γ)^N-1。

安全三元条件操作(STCO)。在SCMP和SM协议的基础上，我们进一步提出了一个安全的三元条件操作协议。这个协议的主要思想是根据不同的条件安全地返回不同的值，这与在编程语言(如C或Java)使用<condition>:<value1>:<value2>相似。使用SCMP协议的输出作为条件，我们定义STCO协议如下：

STCO(E_pk(d₃),E_pk(d₄),E_pk([d₁≤d₂]))

一种保护隐私的Top-k查询why-not问题处理方法，该方法包括如下步骤：

1)安全计算丢失目标的初始排名；

在用户提出“why-not”问题后，需要找到丢失目标的初始排名。为了保证计算初始排名的过程中不泄露任何关于数据和查询的相关信息，借助安全乘协议(SM)和安全比较协议(SCMP)计算得分函数和比较得分函数值的大小，达到保护数据隐私和查询隐私的目的；

具体为，在SWNkQ算法过程中，为了计算惩罚函数的初始值，要先获得丢失目标在加权向量

下的排名r₀。为了获得r₀，C₁要先计算得分函数并使用SCMP比较得分函数，C₁，C₂合作计算E_pk(r₀)＝E_pk(r₀)*E_pk([score_i≤score₀])，C₁获得计算结果即E_pk(r₀)。

2)基于初始排名，通过支配关系进行安全剪枝；

为了提高效率，减少需要计算数据集中数据点的数量，本发明依据已有的安全数据支配关系计算提出了一种更高效的安全数据支配关系计算方式，借助安全比较协议(SCMP)实现安全的筛选数据集；

在数据集中，存在两个数据

如果有p₁[i]≤p₂[i]且至少一个维度上存在p₁[i]＜p₂[i]，我们就认为

支配

这种支配关系深入研究并广泛应用于skyline查询中。如果

支配

无论在任何加权向量下，

的得分函数都是优于

我们可以得出结论，支配丢失对象m的点得分一定优于m，得分优于m的点排名一定高于m。因此，我们只要计算支配m的点，就可以对数据集进行筛选。

在现有技术中提出了一种安全支配关系计算协议(SDOM)用来计算密文下的支配关系。然而，用安全协议计算支配关系开销很大。此外，对数据集进行筛选并不需要记录支配点本身，只需要记录支配点的个数。根据这一性质，在数据拥有者将数据加密发送

到C₁之前，对每一个

计算支配它的点的个数，并对每个数据在末位添加一个维度以储存支配点的个数p_i[d+1]。最后，数据拥有者对每一个扩充维度后的数据进行加密并上传到C₁。

3)安全生成权重空间：

为了获得较好的近似答案，服务器C₂随机抽样加密一组加权向量构成权重空间并发送给服务器C₁，C₁并不知道权重空间的具体值，C₂并不知道最终采用了哪组加权向量，所以这个过程对C₁和C₂都是安全的；

为了减少数据所有者的计算和通信开销，设计了一种安全的方法，利用C₁和C₂的合作，支持随机抽样加密加权向量以生成安全的加权空间。具体方法如下，C₂随机抽样加密加权向量生成加权空间E_pk(S)并将E_pk(S)发送到C₁。需要注意的是，加权向量的采样独立于why-not问题解释，对每一个why-not问题解释过程都需要生成一组新的加权向量。因为

是由C₂随机抽样加密的，C₁不知道S。同时，C₂也不知道C₁采用了哪一个加权向量，所以C₂也不知道最后选取的加权向量的值。因此，C₁获得E_pk(S)是安全的。

4)计算安全惩罚函数；

为了评价精炼查询的优劣，使用惩罚函数值作为判别条件，惩罚函数值越小的精炼查询我们认为与初始查询的改动最小，最终在所有的精炼查询中返回惩罚函数值最小的精炼查询。

为了找到惩罚函数值最小的精炼查询，C₁需要计算每一个加权向量下的惩罚函数值。给定一个精炼查询

和用户上传的

E_pk(1-α)，C₁首先计算

我们使用

计算惩罚函数而不是

并不影响惩罚函数值的大小关系，使用

更方便计算惩罚函数值。

5)定义提前停止条件，得到最佳精炼查询。

通过对惩罚函数进行移项我们可以发现满足一定条件的精炼查询一定不能小于当前精炼查询的惩罚函数值，对于这样的精炼查询可以提前停止并跳过，通过提前停止条件可以大大提高效率。

对于惩罚函数计算，令

η_w＝(1-α)(r₀-k₀)，惩罚函数计算公式变为：

我们对惩罚函数计算公式简单变形可以得到

和

通过观察m[d+1]可以得到m的最小排名，如果m[d+1]≤k₀时，说明m可以出现在精炼查询的结果中而不用修改k₀。因此，使用max{m[d+1]-k₀,0}作为Δk_L的值，给出当前最小惩罚函数值Pen_min，对每一个

如果η_wΔw_j大于

则不能得到一个小于当前惩罚函数值的精炼查询，当前

可以跳过。

同样的，给定一个Pen_min，同样可以使用

来限制η_kΔr_j。如果η_kΔr_j大于

同样意味着我们得不到一个惩罚函数值更小的精炼查询。通过以上两个条件，我们可以更早的停止当前精炼查询的计算。

有增加维度后加密的数据

和加密的why-not查询请求

C₁和C₂首先计算丢失目标m的初始排名r₀。如果使用 SEQ协议判断出r₀＝0，则说明m不在数据集中。有r₀后对数据

进行剪枝，如果 E_pk(p_i[d+1])≥r₀，我们将数据移出候选集合。然后C₂随机抽样加密生成SWNkQ的权重空间E_pk(S)并发送给C₁，对于每一个

C₁计算得分函数值并进行排名，通过计算出的排名r_i与Δw_j计算惩罚函数值。在计算排名之前，通过SCMP协议比η_wΔw_j和

的大小关系，较若

则跳出当前

在计算排名时，通过SCMP协议比η_kΔk_L和

若

则跳出当前

最后，我们对计算出的

和 E_pk(k_min)加上扰动，由C₁生成扰动因子ε₁和

加密两个扰动因子并加到

和 E_pk(k_min)上得到

和E_pk(k_med)，将

和E_pk(k_med)发送给C₂解密后发送给用户，将ε₁和

本发明首次解决了外包数据场景中Top-k查询“why-not”问题，并通过实验验证了本发明具有较好的可用性。同时，为了更好地说明本发明的效率，在三个真实数据集和一个随机生成数据集上实验说明算法的可用性。

实验设置如下：使用一台服务器作为云服务器，其配置为两颗Intel(R)Xeon(R)Silver 4110Eight-Core CPU 21GHz和128G内存运行Ubuntu1004LTS。实验数据集为真实NBA 球员数据，电影评分数据，销售数据和一个随机生成的数据集。分别具有五个属性维度4500条数据，四个属性维度10000条数据，四个属性维度16000条数据和三个属性维度100000条数据。

下面通过分析实验数据来说明本发明中算法的性能。

初始排名，图2展示了在四个数据集上不同的初始排名对时间的影响，在所有数据集上都可以观察到的规律是时间随着排名的增加而增加。不同的数据集间也有不同的情况，NBA数据集相对来说耗时最少，因为NBA数据集里的数据最少。在rand数据集上查询是比较高效的，而在Movie数据集上花费的时间比较长，可能是因为剪枝条件和属性维度比较大。不同的α也呈现不同的时间，总的来说NBA，Sales和rand数据集对α 没那么敏感，Movie数据集受α的影响比较大。

初始结果集大小，图3展示了在四个数据集上不同的初始结果集大小对时间的影响。与初始排名不同的是，越大的结果集运行时间越短，因为结果集越大，丢失目标出现在结果集的时间越早，运行时间越短。当k＝40的时候，运行时间急剧下降，因为越大的k 剪枝效果越好。

权重空间大小。图4展示了在四个数据集上不同的权重空间大小对时间的影响，可以观察到的是在所有的数据集上，权重空间越大，运行时间越长，因为越多的加权向量代表循环的次数越多，运行时间越长。Movie数据集与rand数据集相比需要更长的运行时间，因为rand数据集属性维度更少，支配关系计算能筛选到更多的点。

综上，本实施方案实现了在外包场景中实现对于“why-not”问题的解释，同时保证数据隐私，查询隐私和解释过程中不泄露任何的相关信息；

在加密的数据对象上高效地实现对于“why-not”问题的解释，使外包场景中的数据对象能够得到有效的利用；

在保证数据隐私安全的前提下，满足实际应用中返回符合用户要求的Top-k查询。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种保护隐私的Top-k查询why-not问题处理方法，给定加密的why-not问题

安全的Top-k查询why-not问题是在密文中找到一个精炼的Top-k查询

其中，pk是非对称加密的公钥，其特征在于，该方法包括如下步骤：

1)安全计算丢失目标的初始排名；

2)基于初始排名，通过支配关系进行安全剪枝；

3)安全生成权重空间：

4)计算安全惩罚函数；

5)定义提前停止条件，得到精炼查询。

2.根据权利要求1所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于，该方法的系统模型包含三方:数据所有者、查询用户和云服务器；

查询用户：在指定一个安全的Top-k查询

3.根据权利要求1所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于，该方法中引入安全子协议用于加密数据的基本计算，安全子协议在两个非互通云C₁和C₂框架下工作，所述安全子协议包括安全的乘法SM、安全相等SEQ、安全平方欧氏距离SSED、安全比较SCMP、安全三元条件操作STCO。

4.根据权利要求3所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于，该方法中定义STCO协议如下：

STCO(E_pk(d₃),E_pk(d₄),E_pk([d₁≤d₂]))

5.根据权利要求1-4所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于：具体包括以下步骤：

1)服务器C₁和C₂首先计算丢失目标m的初始排名r₀，其中，使用SEQ协议判断出r₀＝0，则说明m不在数据集中；

2)基于初始排名r₀对增加维度后加密的数据

进行剪枝，如果E_pk(p_i[d+1])≥r₀，将数据移出候选集合，其中p_i[d+1]表示支配点的个数；

4)给定一个精炼查询

和用户上传的

E_pk(1-α)，C₁首先计算

使用

计算惩罚函数；

5)对于每一个

C₁计算得分函数值并进行排名，通过SCMP协议对比η_wΔw_j和

的大小关系，若

则跳出当前

计算出的排名r_i与Δw_j计算惩罚函数值；

其中，在计算排名时，通过SCMP协议比η_kΔk_L和

若

则跳出当前

6)对计算出的

和E_pk(k_min)加上扰动，由C₁生成扰动因子ε₁和

加密两个扰动因子并加到

和E_pk(k_min)上得到

和E_pk(k_med)，将

和E_pk(k_med)发送给C₂解密后发送给用户，将ε₁和

6.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于，所述步骤1)中，首先服务器C₁计算得分函数，并使用SCMP比较得分函数，服务器C₁，C₂合作计算E_pk(r₀)＝E_pk(r₀)*E_pk([score_i≤score₀])，C₁获得计算结果即E_pk(r₀)。

7.根据权利要求5所述的一种保护隐私的Top-k查询why-not问题处理方法，其特征在于，给定具有n个数据对象的数据集