CN113111383B

CN113111383B - 一种垂直分割数据的个性化差分隐私保护方法及系统

Info

Publication number: CN113111383B
Application number: CN202110431749.1A
Authority: CN
Inventors: 唐朋; 郭山清; 胡程瑜; 白兴涛; 刘高源; 张芷源
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-05-20
Anticipated expiration: 2041-04-21
Also published as: CN113111383A

Abstract

本发明属于数据安全与隐私保护领域，提供了一种垂直分割数据的个性化差分隐私保护方法及系统，其中，该方法在聚合服务器内完成，包括基于隐私预算分割来调整垂直分割数据的隐私保护强度；以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布，并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音，以满足差分隐私保护要求；根据含有噪音的垂直分割数据属性集合的边际分布，一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布，最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。

Description

一种垂直分割数据的个性化差分隐私保护方法及系统

技术领域

本发明属于数据安全与隐私保护领域，尤其涉及一种垂直分割数据的个性化差分隐私保护方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

分布式场景下，大规模数据的不同的属性往往分布在不同的节点，这被称之为垂直分割数据。同一组个体的不同属性分别属于不同的局部数据集。例如，同一个城市的医院和银行分别拥有市民的医疗数据和金融数据。实际应用中，为了完成数据分析、数据降维和数据生成等任务，需要计算不同节点间属性的边际分布。然而，发明人发现，数据中往往包含个体的敏感信息，而且不同节点的局部数据集中属性的隐私保护强度需求可能不同，现有技术往往无法满足个性化差分隐私保护的目的，而且无法准确得到不同属性的垂直分割数据的关联关系。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种垂直分割数据的个性化差分隐私保护方法及系统，其能够在满足每一方局部数据集个性化隐私保护的同时，显著提高垂直分割数据的边际分布计算结果的精度，最终展示出不同属性的垂直分割数据的关系图，实现了个性化差分隐私保护，有利于个性化信息隐私的安全性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种垂直分割数据的个性化差分隐私保护方法。

一种垂直分割数据的个性化差分隐私保护方法，其在聚合服务器内完成，包括：

基于隐私预算分割来调整垂直分割数据的隐私保护强度；

以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布，并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音，以满足差分隐私保护要求；

根据含有噪音的垂直分割数据属性集合的边际分布，一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布，最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。

需要说明的是，本发明生成的不同属性的个性化差分隐私保护数据集合，实现了个性化差分隐私保护，有利于个性化信息隐私的安全性。

本发明的第二个方面提供一种垂直分割数据的个性化差分隐私保护系统。

一种垂直分割数据的个性化差分隐私保护系统，其包括：

隐私预算分割模块，其用于基于隐私预算分割来调整垂直分割数据的隐私保护强度；

边界分布计算模块，其用于以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布，并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音，以满足差分隐私保护要求；

一致性校验模块，其用于根据含有噪音的垂直分割数据属性集合的边际分布，一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布，最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种垂直分割数据的个性化差分隐私保护方法，解决了不同节点的局部数据集中属性的隐私保护强度需求可能不同，从而无法满足个性化差分隐私保护的目的问题，采用从属性角度考虑的隐私预算划分技术和基于最大似然估计的一致性校验技术，实现了在为每一方提供个性化的差分隐私保护的同时，达到正确计算属性集合在垂直分割数据中的边际分布的目的，本发明最终展示出不同属性的垂直分割数据的关系图，实现了个性化差分隐私保护，有利于个性化信息隐私的安全性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的垂直分割数据的个性化差分隐私保护方法流程图；

图2是本发明实施例的垂直分割数据示例；

图3是本发明实施例的一致性校验过程；

图4(a)是本发明实施例在数据集NLTCS上各种隐私保护方法比对结果；

图4(b)是本发明实施例在数据集BR2000上各种隐私保护方法比对结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在垂直分割数据边际分布计算的过程中，可以在边际分布计算过程中为每一方局部数据集提供差分隐私保护，并且能够满足每一方不同的隐私保护强度需求。本发明首次解决了满足个性化差分隐私的垂直分割数据边际分布计算问题，现有工作主要解决单方场景下满足个性化差分隐私的边际分布计算问题。其中，一部分工作基于采样方法，对原始数据集中记录进行采样，得到采样数据集，接着利用采样数据集计算属性(或属性集合)的边际分布，并在计算结果中加入适量噪音以满足差分隐私保护要求。以上方法相当于对关于原始数据集的统计信息进行了随机扰动以达到隐私保护目的。其随机性来自于两方面，一方面是随机采样对原始数据集中每条记录带来的随机性，另一方面是差分隐私中噪音对采样数据集中每条记录带来的随机性。在差分隐私中的噪音对采样数据集中每条记录带来的随机性相同的条件下，通过对原始数据集中记录进行不同概率的采样，即隐私强度需求大的被选中的概率小，隐私强度需求小的被选中的概率大，以调整采样方法对原始数据集中不同隐私强度需求的记录带来的随机性大小，进而从整体上满足原始数据集中不同记录的隐私保护强度需求。

本实施例涉及到三个关键要素，即垂直分割数据、个性化差分隐私、边际分布计算。下面首先分别介绍这三个要素；然后，基于这三个要素，给出垂直分割场景中满足个性化差分隐私的边际分布计算问题的形式化定义。

1.1垂直分割数据

垂直分割关系数据集可以看作是一个整体关系数据集被按属性分成多组，每一组为一个局部数据集，分别属于不同的数据拥有者。这多组局部数据集对应同一组记录(个体)，这些记录通过ID关联，但不同局部数据集包含不同的属性。

例如，某个地区的医院和银行分别拥有该地区市民的医疗信息(如市民的年龄、身高、体重、患病史等信息)和金融信息(如市民的存款记录、余额等信息)。

如图1所示，数据集D包含属性{X₁，...，X_d}。现将D垂直分割成D₁，D₂，D₃。局部数据集D₁，D₂，D₃对应同一组个体{1，...，6}，D₁包含属性

D₂包含属性

D₃包含属性

其中：

如图2所示。

1.2个性化差分隐私

差分隐私作为一种较好的隐私保护模型，可以为数据集中个体敏感信息体提供一种严格、可量化的隐私保护。差分隐私采用隐私参数ε来度量对个体敏感信息的隐私保护强度。特别地，ε越小，表示隐私保护强度越大。在垂直分割场景，由于不同局部数据集中属性不同，而不同属性的敏感程度可能不同。因此，不同局部数据集的隐私需求可能不同。这样，作用在这组局部数据集上的统计函数需要满足每一方局部数据集不同的隐私保护需求，既满足个性化差分隐私需求。个性化差分隐私定义是在相邻数据集集合的基础上。其中，相邻数据集集合可以描述为：

相邻数据集集合：给定两个集合

和

它们分别对应两组局部数据集{D₁，...，D_k...，D_K}和

有且仅有一个整数k∈{1，2，...，K}满足

且对于任意的k′≠k，

则称

和

为相邻数据集集合。

也就是说，对于两个相邻数据集集合，有且仅有一对局部数据集相差一条记录，其他(K-1)对局部数据集相同。基于相邻数据集集合，个性化差分隐私可以定义为：

个性化差分隐私：给定一个随机算法

和一组隐私参数{ε₁，ε₂，...，ε_K}，对于任意两个相邻数据集集合{D₁，...，D_k...，D_K}和

和任意的输出O当且仅当

满足：

则称

能够为每一方局部数据集提供ε_i-差分隐私保护，其中，Pr[·]表示随机算法的输出为某个给定生成数据集的概率。

1.3边际分布计算

在垂直分割场景中，边际分布计算主要是指计算来自不同局部数据集的属性集合的边际分布。例如，存在局部数据集D₁，D₂，分别包含属性

和

现有

即A₁，A₂来自不同的数据集D₁，D₂。A₁，A₂可能分别只包含一个属性，也可能包含多个属性。(A₁，A₂)的边际分布可以表示为Pr(A₁，A₂)。对于任意

和

Pr(A₁＝a₁，A₂＝a₂)称为边际分布Pr(A₁，A₂)的一项。其中

和

分别表示属性A₁，A₂的取值空间。

在垂直分割场景中，一般采用内积计算方法分别计算边际分布的每一项。例如，对于边际分布Pr(A₁，A₂)中的一项Pr(A₁＝a₁，A₂＝a₂)，首先通过遍历数据集A₁和A₂，分别得到两个0-1向量，记为v₁＝{v₁₁，v₁₂，...，v_1m}和v₂＝{v₂₁，v₂₂，...，v_2m}，其中m表示每个局部数据集中记录的个数。对于v₁中任何一个元素v_1i，当D₁中第i条记录的属性A₁的取值为a₁，则v_1i为1，否则为零。同理，对于v₂中任何一个元素v_2i，当D₂中第i条记录的属性A₂的取值为a₂，则v_2i为1，否则为零。然后，计算向量v₁和v₂的内积v₁·v₂，则Pr(A₁＝a₁，A₂＝a₂)＝(v₁·v₂)/m。

1.4问题定义

基于垂直分割数据、个性化差分隐私和边际分布计算三个要素，我们给出垂直分割场景中满足个性化差分隐私的边际分布计算问题的形式化描述：

存在K个数据拥有者P₁，...，P_K，每个数据拥有者P_k(1≤k≤K)拥有一个局部数据集D_k和一个隐私参数ε_k。D₁，...，D_K对应同一组个体，但包含不同的属性，即D₁，...，D_K可以认为是将整体数据集

按属性垂直分割成K份局部数据集。现在要统计属性组合(A₁，...，A_K)的边际分布Pr(A₁，...，A_K)，其中A_k属于数据集D_k，且保证统计函数能够为每一方局部数据集提供ε_i-差分隐私保护。

为了方便计算，一般会引入一个第三方。在第三方协助下，数据拥有者共同计算属性组合的边际分布。我们假设数据拥有者和第三方都是半可信的，即“诚实但好奇”的。他们会认真执行协议，但可能会利用自己的背景知识、接收到的中间结果或最终计算结果推断(其他)局部数据集中个体敏感信息。另外，我们假设数据拥有者之间或者数据拥有者与第三方之间存在合谋，因此需要防止他们的合谋攻击。

本发明的目的在于，在分布式场景下利用垂直分割数据计算属性集合的边际分布的过程中，能够为每一方提供差分隐私保护，并且能够满足每一方局部数据集个性化隐私保护要求，同时能够显著提高计算结果的精度。

本发明的核心思想是：采用从属性角度考虑的隐私预算划分技术和基于最大似然估计的一致性校验技术，在为每一方提供个性化的差分隐私保护的同时，能够正确计算属性集合在垂直分割数据中的边际分布。

如图1所示，本实施例提供了一种垂直分割数据的个性化差分隐私保护方法，该方法在聚合服务器内完成。

其中，涉及到两类实体，K个数据拥有者和1个聚合服务器。每个数据拥有者P_k(其中1≤k≤K)拥有一组数据D_k和一个指定的隐私预算ε_k。聚合服务器利用K个数据拥有者的数据计算给定属性集合

的边际分布，并保证每一个数据拥有者的隐私保护需求。其中，X_k为来自数据集D_k的属性集合。该方法的特征是采用了隐私预算划分和一致性后处理技术，在为每一方提供个性化的差分隐私保护的同时，能够正确计算属性集合在垂直分割数据中全局边际分布。该方法包括以下步骤：

S101：基于隐私预算分割来调整垂直分割数据的隐私保护强度。即将取值较大的隐私预算进行分割。具体包括如下子步骤：

基于隐私预算分割来调整垂直分割数据的隐私保护强度的过程为：

将垂直分割数据中的隐私参数按照设定顺序排序；

将排序后的隐私参数按照从小到大，任意两个相邻的隐私参数作差分解，得到分割后的隐私预算。

在单方场景或水平分割场景(即数据按记录分成多组分别属于不同的数据拥有者，这多组数据含有相同的属性，但包含不同的个体)中，个性化差分隐私问题是指不同记录隐私保护强度需求不同。为解决以上问题，往往利用采样方法对记录的隐私保护强度进行调整，即按照不同的概率对记录进行采样得到采样数据集，接着基于采样数据集进行统计分析。由于采样对原始数据集中不同的记录带来不同程度的随机性，因此即使差分隐私技术对采样数据集中个体带来的随机性相同的条件下，整个过程中对原始数据集中记录带来的随机性也不相同，从而可以满足不同记录个性化的隐私保护强度需求。然而，在垂直分割场景下，不同属性的隐私保护需求强度不同，从记录层面进行隐私保护强度调整的采样方法将“失效”。因此本发明从属性角度出发，提出基于隐私预算分割的隐私保护强度调整的方法。具体包括如下子步骤：

步骤1.1：将隐私参数ε₁，ε₂，...，ε_K从小到大进行排序，不妨假设ε₁＜ε₂＜…＜ε_K；

步骤1.2：将ε₁，ε₂，...，ε_K分解为ε₁-ε₀，ε₂-ε₁，...，ε_K-ε_K-1，其中ε₀＝0。

S102：以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布，并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音，以满足差分隐私保护要求。

具体可描述为：在第一轮交互中，数据拥有者P₁，...，P_K和聚合服务器共同计算给定属性组合(x₁，...，x_K)的边际分布Pr(x₁，...，x_K)，并按照隐私参数ε₁在Pr(x₁，...，x_K)中加入噪音，从而保证为每一方提供ε₁-差分隐私保护；在以后的K-1轮中，对于任意一个k∈{2，3，...，K}，数据拥有者P_k，...，P_K和聚合服务器共同计算属性组合(x_k，...，x_K)的边际分布Pr(x_k，...，x_K)，并按照隐私参数(ε_k-ε_k-1)在Pr(x_k，....，x_K)中加入拉普拉斯噪音，从而保证为每一方提供(ε_k-ε_k-1)-差分隐私保护；经过以上过程，我们得到含有噪音的边际分布Pr(x₁，...，x_K)、Pr(x₂，...，x_K)、……、Pr(x_K)。在每一轮计算中，由于每一方的统计结果包含局部数据集中个体敏感信息，因此一方面需要保证计算过程中每一方统计结果的值不能泄露给聚合服务器和其他数据拥有者，同时需要保证计算的边际分布满足差分隐私保护要求，即防止攻击者利用计算结果推断每一方局部数据集中个体敏感信息。为了满足以上隐私要求，需要以一种安全的方式计算聚合结果。具体包括如下子步骤：

步骤2.1：数据拥有者以一种安全的方式共同生成一份拉普拉斯噪音η。η被拆分成K项的和，即

其中η_k被分发给数据拥有者P_k(其中1≤k≤K)，且其他数据拥有者不能获取η_k的任何信息。

在分布式场景下，为了保证为每一方局部数据集提供差分隐私保护，并且尽可能地减小计算结果精度的损失，所有的数据拥有者共同以一种安全的方式在整体计算结果中加入一份拉普拉斯噪音。在单方场景下，噪音由某一个数据拥有者单独生成，然后直接将其注入真实的统计结果中，接着发布含有噪音的统计结果。这样，攻击者无法获取噪音的大小，也就无法推断真实的统计结果。与单方场景不同，在多方场景下，噪音是由多个数据拥有者共同生成。这时需要考虑不能让任何一个数据拥有者获悉噪音的大小，同时需要考虑，即使数据拥有者拥有噪音的部分信息，对于任意一个数据拥有者或者部分合谋的数据拥有者来讲，噪音的规模(也就是噪音的随机性)也不会降低。为了达到以上要求，本发明采用一种分布式拉普拉斯噪音生成方法。该方法基于以下性质：

性质1：给定一个区间

内服从均匀分布的随机变量u，其随机函数：

η＝μ-λ·sgn(u)·ln(1-2|u|)， (1)

服从拉普拉斯分布，μ为位置参数，λ为尺度参数。

基于性质1，可以通过以下两个阶段生成拉普拉斯噪音：1)借助聚合服务器，数据拥有者共同以一种安全的方式生成一个区间

内服从均匀分布的随机变量；2)将位置参数μ设为0，尺度参数λ设为S/ε，根据公式(1)，计算拉普拉斯噪音η，其中，S表示边际分布计算函数的敏感度，其值为2，ε表示隐私预算，其值为ε_i-ε_i-1(i∈{1，2，...，K})。具体步骤如下：

步骤2.1.1：将区间

内服从均匀分布的连续的随机变量u离散化。这样做的合理性是因为数据在计算机中是按照二进制形式存储的。

步骤2.1.2：每一个相关的数据拥有者P_k(k∈{i，i+1，...，K})在本地生成一个长度为L的0-1串<v_k1，...，v_kL>。由于双精度浮点数长度为8字节，即64位，因此，L往往取值为64。每一位v_kl为随机变量，取值空间为{0，1}，且取每一种值的概率均为

即

步骤2.1.3：对于任意一个l∈{1，...，L}，数据拥有者和聚合服务器利用门限同态加密技术计算：

当<v₁l，...，v_KL>中1的个数为奇数，

当其中1的个数为偶数，

因此，

其中，

表示异或运算。

步骤2.1.4：分别计算u的正负符号sgn(u)和u的绝对值|u|：

为了防止数据拥有者或聚合服务器窃取sgn(u)和|u|的信息，sgn(u)以密文的形式存储，(1-2|u|)被拆分成(K-i+1)项的乘积，即

并将s_k分配给数据拥有者P_K。

步骤2.1.5：基于sgn(u)和|u|数据拥有者和聚合服务器计算拉普拉斯噪音

η被分解成K项的和，并分别分配给每一个数据拥有者。

步骤2.2：边际分布计算。在垂直分割场景，由于属性分布在不同的局部数据集，因此在满足隐私保护条件下计算边际分布比较复杂，需要借助一些额外的安全协议，例如安全内积计算协议(the secure scalar product protocol(SSPP))。具体包括如下子步骤：

步骤2.2.1：每一个相关的数据拥有者P_k在本地为属性集合x_k的每一种取值x_k生成一个长度为|D_k|的标识向量

其中|D_k|表示数据集D_k中记录个数。由于所有局部数据集包含的记录个数相同，因此可将|D_k|简单记为|D|。向量中每一个元素可以按如下方式计算：

步骤2.2.2：数据拥有者和聚合服务器以密文的形式共同计算

从而得到符合

记录的条数。将计算结果划分成(K-i+1)个随机数r_i，...，r_K的和，并将这些随机数分别分发给(K-i+1)个相关的数据拥有者

步骤2.2.3：数据拥有者在本地计算c_k(x)＝r_k(x)+η_k，其中x表示(x_i，...，x_K)，并将计算结果发送给聚合服务器；

步骤2.2.4：聚合服务器计算

步骤2.2.5：基于以上聚合结果，聚合服务器计算：

S103：根据含有噪音的垂直分割数据属性集合的边际分布，一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布，最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。

聚合服务器根据步骤2得到的边际分布Pr(x₁，...，x_K)、Pr(x₂，...，x_K)、……、Pr(x_K)，计算

最终的边际分布，如图3所示。具体包括如下子步骤：

步骤3.1：对于任意的k∈{1，...，K}，聚合服务器根据

计算

的边际分布，分别记为ω_kk、ω_k，k+1、……、ω_kK，计算方式为：

这样，对于同一个属性集合

聚合服务器可以得到多个不同的含有噪音的边际分布ω_1k、ω_2k、……、ω_kk。在给定原始垂直分割数据的条件下，属性组合

的真实边际分布是确定的，可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω_1k、ω_2k、……、ω_kk，是因为噪音是随机的。

步骤3.2：对于任意一个属性集合

根据其多个含有噪音的边际分布，利用最大似然估计方法，估算其真实的边际分布，记为

在给定原始垂直分割数据的条件下，属性组合

的真实边际分布是确定的，可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω_1k、ω_2k、……、ω_kk，是因为噪音是随机的。因为噪音服从拉普拉斯分布，因此含有噪音的统计结果也服从拉普拉斯分布，从而可以计算每一种统计结果发生的概率，进一步可以计算所有结果共同发生的概率。以

的真实边际分布为参数，以所有结果共同发生的概率为似然函数，利用最大似然估计，可以估算

的真实边际分布。

步骤3.3：从

出发，这个重新调整

的边际分布，分别记为

以保证

计算方式为：

为了更直观说明本实施例的方法的优势，如图4(a)和图4(b)所示，本实施例的PBS方法、MV方法和SAV方法比较。其中，PBS方法表示本实施例的基于隐私预算分割的边际分布式计算，MV方法表示直接根据隐私保护强度要求最大的一方加入噪音，SAV方法表示基于采样的统计方法。实验结果表明，本实施例的方法能够为每一方提供差分隐私保护，并且能够满足每一方局部数据集个性化隐私保护要求，同时能够显著提高计算结果的精度。

例如：

现有一家医院拥有一组用户的医疗数据，铁路部门拥有该组用户的出行记录。现要计算医疗数据中用户是否感染某一传染病这一属性x₁和出行记录数据中目的地这一属性x₂的联合分布(也就是这属性组合(x₁，x₂)的边际分布)，以便于分析传染病传播途径。最终给出医疗数据中用户是否感染某一传染病这一属性和和出行记录数据中目的地这一属性的关联关系图，从而得到传染病传播途径。

其中，医院和铁路部门称为两个数据拥有者，分别记为P₁和P₂，所拥有的数据集分别记为D₁和D₂，指定的隐私预算分别记为ε₁和ε₂。

可将隐私参数ε₁，ε₂从小到大进行排序，不妨假设ε₁＜ε₂；将ε₁，ε₂分解为ε₁-ε₀，ε₂-ε₁，其中ε₀＝0。

以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布的可描述为：在第一轮交互中，数据拥有者P₁，P₂，和聚合服务器共同计算给定属性组合(x₁，x₂)的边际分布Pr(x₁，x₂)，并按照隐私参数ε₁在Pr(x₁，x₂)中加入噪音，从而保证为每一方提供ε₁-差分隐私保护；在第二轮中，P₂和聚合服务器共同计算属性x₂的边际分布x₂，并按照隐私参数ε₂-ε₁在pr(X₂)中加入拉普拉斯噪音，从而保证为每一方提供(ε₂-ε₁)-差分隐私保护；经过以上过程，我们得到含有噪音的边际分布Pr(x₁，x₂)、pr(X₂)。

聚合服务器根据得到的边际分布Pr(x₁，x₂)、pr(X₂)，计算(x₁，x₂)最终的边际分布，具体包括如下子步骤：

对于任意的k∈{1，2}，聚合服务器根据

计算

这样，对于同一个属性集合

对于任意一个属性集合

在给定原始垂直分割数据的条件下，属性组合

的真实边际分布。

从

出发，这个重新调整

的边际分布，分别记为

以保证

计算方式为：

实施例二

本实施例提供了一种垂直分割数据的个性化差分隐私保护系统，其包括：

此处需要说明的是，本实施例的垂直分割数据的个性化差分隐私保护系统中的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垂直分割数据的个性化差分隐私保护方法，其特征在于，该方法在聚合服务器内完成，包括：

基于隐私预算分割来调整垂直分割数据的隐私保护强度；具体过程为：

将垂直分割数据中的隐私参数按照设定顺序排序；

将排序后的隐私参数按照从小到大，任意两个相邻的隐私参数作差分解，得到分割后的隐私预算；

2.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法，其特征在于，所述噪音为分布式拉普拉斯噪音。

3.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法，其特征在于，基于尺度参数、随机变量的正负符号和绝对值，计算拉普拉斯噪音，并将拉普拉斯噪音被分解若干项的和，分别分配给每一个数据拥有者。

4.如权利要求3所述的垂直分割数据的个性化差分隐私保护方法，其特征在于，在计算拉普拉斯噪音中，所述尺度参数为边际分布计算函数的敏感度与隐私预算的比值。

5.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法，其特征在于，聚合服务器和数据拥有者以密文的形式共同计算符合相应属性集合的条数。

6.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法，其特征在于，根据含有噪音的垂直分割数据属性集合的边际分布，利用最大似然估计方法，估算并调整多个垂直分割数据属性集合的真实边际分布。

7.一种垂直分割数据的个性化差分隐私保护系统，其特征在于，包括：

隐私预算分割模块，其用于基于隐私预算分割来调整垂直分割数据的隐私保护强度；具体过程为：

将垂直分割数据中的隐私参数按照设定顺序排序；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的垂直分割数据的个性化差分隐私保护方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的垂直分割数据的个性化差分隐私保护方法中的步骤。