CN105612529A

CN105612529A - 用于鉴于协同和组合的效用感知隐私保护映射的方法和装置

Info

Publication number: CN105612529A
Application number: CN201380078967.5A
Authority: CN
Inventors: 纳蒂亚·法瓦兹; 阿巴萨利·马克杜米·卡克哈基
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-08-19
Filing date: 2013-11-21
Publication date: 2016-05-25
Also published as: EP3036678A1; JP2016535898A; KR20160044485A; WO2015026385A1

Abstract

本实施例以用户遇到的隐私效用权衡为重点，该用户希望将一些公共数据发布至分析者以期得到一些效用，这些公共数据与他的私有数据相关联。当多个数据被发布至一个或多个分析者时，我们以分散的方式设计隐私保护映射。具体地，每个隐私保护映射被设计以防止单独地从每个发布的数据中推断私有数据。分散通过将具有许多变量的一个大的优化问题分为具有较少变量的数个较小的优化来简化设计。

Description

用于鉴于协同和组合的效用感知隐私保护映射的方法和装置

相关申请的交叉引用

本申请要求下面的于2013年8月19日提交的序列号为61/867,544、题为“MethodandApparatusforUtility-AwarePrivacyPreservingMappinginViewofCollusionandComposition(用于鉴于协同和组合的效用感知隐私保护映射的方法和装置)”的美国临时申请的申请日的权益，该临时申请出于所有目的通过引用以其整体合并于此。

本申请涉及于2012年8月20日提交的序列号为61/691,090、题为“AFrameworkforPrivacyagainstStatisticalInference(用于针对统计推断的隐私的框架)”的美国临时专利申请(以下简称“Fawaz”)。该临时申请明确地通过引用以其整体合并于此。

此外，本申请涉及下面的申请：(1)代理案号PU130120、题为“MethodandApparatusforUtility-AwarePrivacyPreservingMappingagainstInferenceAttacks(用于针对推断攻击的效用感知隐私保护映射的方法和装置)”，以及(2)代理案号PU130122、题为“MethodandApparatusforUtility-AwarePrivacyPreservingMappingthroughAdditiveNoise(用于通过加性噪声的效用感知隐私保护映射的方法和装置)”，这两个申请通过引用以其整体被指定、合并于此，并且被同时提交申请。

技术领域

本发明涉及用于保护隐私的方法和装置，并且更具体地，涉及用于鉴于协同(collusion)或组合(composition)的保护用户数据的隐私的方法和装置。

背景技术

在大数据时代中，对用户数据的收集和挖掘已经成为大量私有和公共机构的快速增长且常见的实践。例如，技术公司利用用户数据向它们的客户提供个性化的服务，政府机构依赖数据来处理各种挑战(例如，国家安全、国家卫生、预算和资金分配)，或医疗机构分析数据以发现疾病的起源和潜在的治愈方法。在某些情况下，第三方对用户数据的收集、分析、或共享是在未经用户的同意或察觉的情况下执行的。在其他情况下，数据由用户自愿地发布至特定分析者，以便获得服务作为回报，例如，发布产品评价以获得推荐。这种服务、或用户从允许访问用户数据中得到的其他好处可以被称为效用。在上述两种情况中的任意一种情况下，隐私风险出现，这是由于一些收集的数据可能被用户认为是敏感的(例如，政治观点、健康状况、收入水平)，或可能乍看之下似乎无恶意(例如，产品评价)但是导致推断出与其相关的更敏感的数据。后者的威胁指代推断攻击，推断攻击是一种通过利用隐私数据与公开发布的数据的关联来推断隐私数据的技术。

附图说明

图1是示出协同和组合的图示示例。

图2是描绘根据本原理的实施例的用于保护隐私的示例性方法的流程图。

图3是描绘根据本原理的实施例的用于保护隐私的另一示例性方法的流程图。

图4是描绘根据本原理的实施例的示例性隐私代理的框图。

图5是描绘根据本原理的实施例的具有多个隐私代理的示例性系统的框图。

发明内容

本原理提供了用于处理用户的用户数据的方法，包括以下步骤：访问用户数据，该用户数据包括私有数据、第一公共数据和第二公共数据，第一公共数据对应于第一类数据，并且第二公共数据对应于第二类数据；确定私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限；响应于第一信息泄露界限，确定私有数据与第一发布的数据之间的第二信息泄露界限、以及私有数据与第二发布的数据之间的第三信息泄露界限；响应第二界限确定第一隐私保护映射，该第一隐私保护映射将第一类数据映射至第一发布的数据，以及响应第三界限确定第二隐私保护映射，该第二隐私保护映射将第二类数据映射至第二发布的数据；分别基于第一隐私保护映射和第二隐私保护映射来修改用户的第一公共数据和第二公共数据，从而形成第一发布的数据和第二发布的数据；以及将经修改的第一公共数据和经修改的第二公共数据发布至如下面所述的服务提供商和数据收集机构中的至少一个。本原理还提供用于执行这些步骤的装置。

本原理还提供了用于处理用户的用户数据的方法，包括以下步骤：访问用户数据，该用户数据包括私有数据、第一公共数据和第二公共数据，第一公共数据对应于第一类数据，并且第二公共数据对应于第二类数据；确定私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限；响应于第一信息泄露界限，确定私有数据与第一发布的数据之间的第二信息泄露界限、以及私有数据与第二发布的数据之间的第三信息泄露界限，其中第二界限和第三界限中的每一个实质上等于第一界限；响应第二界限确定第一隐私保护映射，该第一隐私保护映射将第一类数据映射至第一发布的数据，以及响应第三界限确定第二隐私保护映射，该第二隐私保护映射将第二类数据映射至第二发布的数据；分别基于第一隐私保护映射和第二隐私保护映射来修改用户的第一公共数据和第二公共数据，从而形成第一发布的数据和第二发布的数据；以及将经修改的第一公共数据和经修改的第二公共数据发布至如下面所述的服务提供商和数据收集机构中的至少一个。本原理还提供用于执行这些步骤的装置。

本原理还提供其上存储有指令的计算机可读存储介质，所述指令用于根据上面所描述的方法处理用户的用户数据。

具体实施方式

在出现差分隐私的数据库和密码学文献中，焦点是算法。具体地，研究人员已经使用差分隐私来设计用于推断算法、传输、和查询数据的隐私保护机制。最近的工作集中在差分隐私与统计推断的关系上。已经表明差分隐私不保证有限的信息泄露。存在类似于差分隐私的其他框架，例如Pufferfish框架，其可以在由D.Kifer和A.Machanavajjhala在2012年的ACMPODS中发表的题为“针对隐私的严格的和可定制的框架(Arigorousandcustomizableframeworkforprivacy)”的文章中找到，然而其焦点不在于效用保护。

许多方法依赖信息理论技术来建模和分析隐私精确度权衡。这些信息理论模型中的大部分主要集中于数据库的条目的全部或子集的共同隐私，并且对每个数据库条目的平均剩余不确定性或输出发布之后每个输入变量的疑义度提供渐进保证。相反，本申请中所研究的框架提供了关于信息泄露(分析者通过观察发布的输出获得)的界限方面的隐私。

我们考虑Fawaz中所描述的设置，其中用户具有相互关联的两种数据：用户想要保持私有的一些数据，以及用户愿意发布至分析者的一些非私有数据(用户可以从该分析者得到一些效用，例如，向服务提供商发布媒体偏好以接收更精确的内容推荐)。

本申请中所使用的术语分析者(例如，分析者可以是服务提供商的系统的一部分)指代发布的数据的接收者，其表面上使用数据以便向用户提供效用。通常，分析者是发布的数据的合法接收者。然而，分析者也可能非法地利用发布的数据并且推断与用户的私有数据有关的一些信息。这造成了隐私与效用要求之间的紧张关系。为了减少推断威胁同时维护效用，用户可以发布根据条件概率映射生成的数据的“失真版本”，该条件概率映射被称为“隐私保护映射”(其在效用约束下被设计)。

在本申请中，我们将用户想要保持私有的数据称为“私有数据”，将用户愿意发布的数据称为“公共数据”，以及将用户实际发布的数据称为“发布的数据”。例如，用户可能想要保持他的政治观点私有，并且愿意在修改的情况下发布他的TV评价(例如，用户对节目的实际评价是4，但是他发布的评价是3)。在这种情况下，用户的政治观点被认为是该用户的私有数据，TV评价被认为是公共数据，并且发布的修改的TV评价被认为是发布的数据。注意，另一用户可能愿意在不做修改的情况下发布政治观点和TV评价两者，因此针对该另一用户，当仅考虑政治观点和TV评价时，私有数据、公共数据、和发布的数据之间不存在区别。如果许多人发布政治观点和TV评价，则分析者可能能够得到政治观点与TV评价之间的关联，并且因此可能能够推断想要保持政治观点私有的用户的政治观点。

关于私有数据，其指的是用户不仅指示它不应当被公开发布而且用户不希望它从用户将发布的其他数据中被推断出来的数据。公共数据是用户将允许隐私代理发布(可能以失真的方式发布以防止对私有数据的推断)的数据。

在一个实施例中，公共数据是服务提供商为了向用户提供服务而从用户请求的数据。然而，用户在将它发布至服务提供商之前将使它失真(即，修改)。在另一实施例中，公共数据是用户指示为“公共的”(在这意义上，只要发布采取防止推断私有数据的形式，用户将不介意发布它)的数据。

如上面所讨论的，具体类别的数据是否被认为是私有数据或公共数据是基于具体用户的角度。为了便于表示，我们从当前用户的角度将具体类别的数据称为私有数据或公共数据。例如，当尝试为想要保持他的政治观点私有的当前用户设计隐私保护映射时，我们针对当前用户和愿意发布他的政治观点的另一用户两者将政治观点称为私有数据。

在本原理中，我们使用发布的数据与公共数据之间的失真作为效用的度量。当失真较大时，发布的数据更不同于公共数据，并且更多的隐私被保护，用户从失真的数据中得到的效用可能更少。另一方面，当失真较小时，发布的数据是公共数据的更加精确的表示，并且用户可以接收更多的效用，例如，接收更精确的内容推荐。

在一个实施例中，为了针对统计推断保护隐私，我们对隐私效用权衡进行建模并且通过解决最小化信息泄露的优化问题来设计隐私保护映射，信息泄露被定义为私有数据与发布的数据之间的交互信息，服从失真约束。

在Fawaz中，找到隐私保护映射依赖基本假设(链接私有数据和发布的数据的先验联合分布是已知的并且可以被提供为对优化问题的输入)。在实践中，真正的先验分布可能不是已知的，而是可以从可以被观测到的一组样本数据中估计某些先验统计。例如，可以从不关心隐私并且公开地发布不同类别的数据(可能被关心他们的隐私的用户认为是私有数据或公共数据)的一组用户中估计先验联合分布。可替代地，当不能观测到私有数据时，可以从仅发布他们的公共数据的一组用户中估计将要发布的公共数据的边缘分布或仅仅它的二阶统计。基于这组样本估计的统计然后被用来设计将被应用至关心其隐私的新用户的隐私保护映射机制。在实践中，估计的先验统计与真正的先验统计之间也可能存在不匹配，例如，由于可观测的样本的数量过小，或可观测的数据不完全。

为了用公式表示问题，公共数据由具有概率分布P_X的随机变量X∈x表示。X与私有数据相关，私有数据由随机变量S∈S表示。S和X的关联由联合分布P_S，X定义。由随机变量Y∈y表示的发布的数据是X的失真版本。Y经由将X传递通过核P_Y|X被获得。在本申请中，术语“核”指概率性地将数据X映射数据Y的条件概率。也就是说，核P_Y|X是我们希望设计的隐私保护映射。由于Y是只有X的概率函数，在本申请中，我们假定S→X→Y形成马尔可夫(Markov)链。因此，一旦我们定义P_Y|X，我们就具有联合分布P_S，X，Y＝P_Y|XP_S，X以及具体的联合分布P_S，Y。

下面，我们首先定义隐私概念，然后定义精确度概念。

定义1.假定S→X→Y。如果从联合分布P_S，X，Y＝P_Y|XP_S，X导出的分布P_S，Y满足以下式子，则核P_Y|X被称为∈散度私有。

其中D(.)是K-L散度，随机变量的期望，H(.)是熵，∈∈[0，1]被称为泄露因子，并且交互信息I(S；Y)表示信息泄露。

我们假设如果∈＝0则机制具有完全的隐私。在极端情况下，∈＝0意味着发布的随机变量Y独立于私有随机变量S，并且∈＝1意味着S完全可从Y恢复(S是Y的确定性函数)。注意，可以假定Y完全独立于S以具有完全的隐私(∈＝0)，但是这可能导致不良的精确度水平。我们定义精确度如下。

定义2.令为失真度量。如果则核P_Y|X被称为D精确度。

应当注意的是，可以使用任意失真度量，例如，汉明(Hamming)距离(如果X和Y是二进制向量)、或欧几里得范数(如果X和Y是实向量)、或对用户将从Y而不是X的发布中导出的效用中的变化进行建模的更复杂的度量。后者例如可以表示基于用户的失真媒体偏好Y的发布而不是他的真实偏好X的发布来推荐给用户的内容的质量中的差异。

隐私保护映射的泄露因子∈与失真水平D之间存在权衡。在一个实施例中，在给定效用约束的情况下，我们的目标是限制可以被推断的私有信息的数量。当推断由私有数据与发布的数据之间的信息泄露测量并且效用由公共数据与发布的数据之间的失真指示时，目标可以在数学上用公式表示为找到在给定失真约束的情况下最小化最大信息泄露I(S；Y)的概率映射P_Y|X，其中最大值通过与隐私代理处可用的分布P_S，X有关的统计知识中的不确定性取得：

概率分布P_S，Y可以从联合分布P_S，X，Y＝P_Y|XP_S，X＝P_Y|XP_S|XP_X中获取。

在下文中，我们提出了基于统计推断中的一些技术(被称为极大相关)的实现服从失真约束的隐私(即，以最小化信息泄露)的方案。我们示出了我们如何能够使用这种理论在不完全知道联合概率度量P_S，X的情况下设计隐私保护映射。具体地，我们证明了信息泄露上的分离性结果：更具体地，我们基于I(S；X)乘以极大相关因子(其由核P_Y|X确定)提供了信息泄露的上界。这允许在不完全知道联合概率度量P_S，X的情况下用公式表示最优映射。

接下来，我们提供了在规定解耦结果中使用的定义。

定义3.针对给定联合分布P_X，Y，令其中r(y)是对Y上的p(y|x)r(x)的边缘度量。

注意，因为针对散度的数据处理不等式，所以S^*(X；Y)≤1。下面是V.Anantharam、A.Gohari、S.Kamath、和C.Nair的题为“关于Erkip和Cover研究的最大关联、超压缩性、以及数据处理不等式(Onmaximalcorrelation，hypercontractivity，andthedataprocessinginequalitystudiedbyErkipandCover)”arXiv预印本arXiv：1304.6133，2013的文章的结果。

定理1.如果S→X→Y形成马尔可夫链，则下面的界限成立：

I(S；Y)≤S^*(X；Y)I(S；X)，(6)

并且随着我们改变S，界限是紧的。换句话说，我们有

\sup_{S : S &RightArrow; X &RightArrow; Y} \frac{I (S; Y)}{I (S; Y)} = S^{*} (X; Y), - - - (7)

假定I(S；X)≠0。

定理1将Y和S的依赖关系解耦为两项，一项涉及S和X，一项涉及X和Y。因此，即使不知道P_S，X，可以通过最小化涉及X和Y的项来得到信息泄露的上界。这样的应用使得我们的问题变为如下：

假定我们处于P_S，X未知并且针对某些Δ∈[0，H（S)]的I(S；X）≤Δ的规定下。I(S；X)是嵌入在关于S的X中的内在信息，我们无法控制它。Δ的值不影响我们将找到的映射，但是Δ的值影响我们认为是从该映射产生的隐私保证(术语上称为泄露因子)。如果Δ界限是紧的，则隐私保证将是紧的。如果Δ界限不紧，则我们可能付出比目标泄露因子的实际需要的失真更多的失真，但是这不影响隐私保证。

使用定理1，我们得到

\min_{P_{Y | X}} \max_{P_{S, X}} I (S; Y) = \min_{P_{Y | X}} \max_{P_{X}} \max_{P_{S | X}} I (S; Y) \leq Δ (\min_{P_{Y | X}} \max_{P_{X}} S^{*} (X; Y)) .

因此，优化问题变为找到P_Y|X，最小化下面的目标函数：

\min_{P_{Y | X}} \max_{P_{X}} S^{*} (X; Y)

为了更加详细地研究这个优化问题，我们回顾了极大相关文献中的一些结果。极大相关(或Rényi相关)是两个随机变量之间的关联的度量(其在信息理论和计算机科学中都具有应用)。在下文中，我们定义极大相关并且提供它与S^*(X；Y)的关系。

定义4.给定两个随机变量X和Y，(X，Y)的极大相关是

其中是实值随机变量f(X)和g(Y)对的集合，从而使得并且

这个度量最先由Hirschfeld(H.0.Hirschfeld在剑桥哲学学会论文集第31卷中发表的“关联和偶然性之间的连接(Aconnectionbetweencorrelationandcontingency)”)和Gebelein(H.Gebelein在Zeitschriftfurangew.Math.undMech.21，pp.364-379(1941)中发表的“DasstatistischeProblemderKorrelationalsVariations-undEigenwert-problemundseinZusammenhangmitderAusgleichungsrechnung”)引入，然后由rényi(A.rényi在ActaMathematicaHungarica的第10卷第3号中发表的“对依赖性的测量(Onmeasuresofdependence)”)进行研究。最近，Anantharam等和Kamath等(S.Kamath和V.Anantharam在2012第50届Allerton会议上在通信、控制、和计算(Allerton)中发表的“联合分布的非交互模拟：hirschfeld-gebelein-rényi极大相关和超压缩性带(Non-interactivesimulationofjointdistributions：Thehirschfeld-gebelein-renyimaximalcorrelationandthehypercontractivityribbon)”，以下称为“Kamath”)研究了极大相关并且提供了这个量的几何解释。下面是R.Ahlswede和P.Gács的“积空间中的集合和马尔科夫算子的超压缩的传播(Spreadingofsetsinproductspacesandhypercontractionofthemarkovoperator)”的文章的结果。概率的年鉴(以下称为“Ahlswede”)：

\max_{P_{X}} ρ_{m}^{2} (X; Y) = \max_{P_{X}} S^{*} (X; Y) . - - - (10)

将(10)代入(8)中，隐私保护映射是以下式子的解答

\min_{P_{Y | X}} \max_{P_{X}} ρ_{m}^{2} (X; Y)

H.S.Witsenhausen在SIAM应用数学杂志第28卷第1号发表的“关于相依随机变量的对的序列(Onsequencesofpairsofdependentrandomvariables)”的文章示出，极大相关ρ_m(X；Y)的特征在于具有条目的矩阵Q的二次最大奇异值。优化问题可以由用于找到矩阵的奇异值的幂迭代算法或Lanczos算法来解决。

在上文中，我们讨论了如何能够使用定理1中的分离性结果来设计隐私保护映射。上面所讨论的方法是可以被用来处理设计隐私保护映射机制中的新挑战(当多个数据发布至一个或数个分析者时该新挑战出现)的技术中的方法。在本申请中，我们提供了鉴于协同和组合的隐私映射机制。

在下文汇总，我们定义协同和组合下的挑战。

协同：私有数据S与两个公共数据X₁和X₂相关联。两个隐私保护映射分别被应用在这些公共数据上以获得两个发布的数据Y₁和Y₂，两个发布的数据然后被发布至两个分析者。当分析者共享Y₁和Y₂时，我们希望分析S上的累积隐私保证。在本申请中，我们也将共享Y₁和Y₂的分析者称为协同实体。

我们集中于以分散的方式设计两个隐私保护映射的情况：每个隐私保护映射分别被设计以防止从每个发布的数据推断S。分散通过将具有许多变量(联合设计)的一个大的优化分为具有较少变量的若干较小的优化来简化设计。

组合：私有数据S通过联合概率分布P(S；X₁；X₂)与公共数据X₁和X₂相关联。假定我们能够分别设计两个隐私保护映射，其中一个映射将X₁转换为Y₁，并且另一映射将X₂转换为Y₂。分析者请求(X₁，X₂)对。我们希望重新使用这两个独立的隐私映射以生成针对(X₁，X₂)对的隐私保护映射，其仍然保证一定水平的隐私。

图1提供了关于协同和组合的示例：

-示例1：当考虑单个私有数据和多个公共数据时的协同；

-示例2：当考虑多个私有数据和多个公共数据时的协同；

-示例3：当考虑单个私有数据和多个公共数据时的组合；

-示例4：当考虑多个私有数据和多个公共数据时的组合。

在示例1中，私有数据S与两个公共数据X₁和X₂相关联。在该示例中，我们将政治观点视为私有数据S、将TV评价视为公共数据X₁、并且将小吃评价视为公共数据X₂。两个隐私保护映射被分别应用在这些公共数据上以获得被提供给两个实体的两个发布的数据Y₁和Y₂。例如，失真的TV评价(Y₁)被提供至Netflix，并且失真的小吃评价(Y₂)被提供至卡夫食品(KraftFoods)。以分散的方式设计隐私保护映射。每个隐私保护映射方案被设计以保护S远离相应的分析者。如果Netflix与卡夫(Y₂)交换信息(Y₁)，则用户的私有数据(S)相比于如果它们仅单独依赖于Y₁或Y₂可能被更精确地恢复。当分析者共享Y₁和Y₂时，我们希望分析隐私保证。在该示例中，Netfiix是关于TV评价(而不是小吃评价)的信息的合法接收者，并且卡夫食品是关于小吃评价(而不是TV评价)的信息的合法接收者。然而，它们可能为了推断更多关于用户的私有数据而共享信息。

在示例2中，私有数据S₁与公共数据X₁相关联，并且私有数据S₂与公共数据X₂相关联。在该示例中，我们将收入视为私有数据S₁、将性别视为私有数据S₂、将TV评价视为公共数据X₁、并且将小吃评价视为公共数据X₂。两个隐私保护映射被分别应用在这些公共数据上以获得被提供给两个分析者的两个发布的数据Y₁和Y₂。

在示例3中，私有数据S通过联合概率分布与公共数据X₁和X₂相关联。在该示例中，我们将政治观点视为私有数据S、将针对福克斯(Fox)新闻的TV评价视为公共数据X₁、并且将针对ABC新闻的TV评价视为公共数据X₂。分析者(例如，康卡斯特(Comcast))既请求X₁也请求X₂。此外，隐私保护映射被独立地设计，并且当隐私代理结合关于S₁和S₂两者的她的信息Y₁和Y₂时我们希望分析隐私保证。在该示例中，康卡斯特是针对福克斯新闻和ABC新闻的TV评价的合法接收者。

在示例4中，两个私有数据S₁和S₂通过联合概率分布与公共数据X₁和X₂相关联。在该示例中，我们将收入视为私有数据S₁、将性别视为私有数据S₂、将TV评价视为公共数据X₁、并且将小吃评价视为公共数据X₂。

如上面所讨论的，当存在协同或组合时涉及多个随机变量(例如，X₁和X₂)。然而，由于提供对隐私映射的解答的优化问题的复杂度随着向量X的尺寸缩放，针对大尺寸X(具有多个变量的大向量)的映射相比于针对小尺寸的X(可能是一个变量、或小向量)的映射更难以设计。

在一个实施例中，我们通过将具有许多变量的一个大的优化分为具有较少变量的数个较小的优化来简化优化问题的设计。

可以在下面的设置中捕获协同和组合问题两者。

假定私有随机变量S与X₁和X₂相关联。X₁和X₂的失真版本分别由Y₁和Y₂表示。我们分别基于给定的失真约束在X₁和X₂上执行两个单独的隐私保护映射P(Y₁|X₁)和P(Y₂|X₂)以获得Y₁和Y₂。单独的信息泄露为I(S；Y₁)和I(S；Y₂)。假定Y₁和Y₂通过协同实体或通过隐私代理经由组合被一起组合为(Y₁，Y₂)对。

在本原理中，我们处理隐私保证如何在多个发布之下组合的问题，即，当多个发布的数据被组合时通过协同或组合获得产生的累积信息泄露的问题。隐私保证的组合的规则有助于处理协同实体的问题，该协同实体共享单独发布至它们的数据以便改进它们对私有数据的推断。组合规则还有助于通过允许将针对多个数据片段的联合设计分为针对单独数据片段的数个较简单的设计问题来设计隐私保护映射机制。

数个现有工作中研究了隐私保护方案的组合。这些工作的焦点在于基于协同或组合的差异隐私。然而，本原理基于协同或组合根据信息理论隐私度量考虑隐私。

在下文中，我们首先讨论发布涉及相同的私有数据的情况(例如，示例1和示例3)，然后将分析扩展至发布涉及不同但相关联的私有数据片段的情况(例如，示例2和示例4)。

单个私有数据，多个公共数据

假定私有随机变量S与X₁和X₂相关联。X₁和X₂的失真版本分别由Y₁和Y₂表示。我们分别在X₁和X₂上执行两个单独的隐私保护映射以获得Y₁和Y₂。和基于给定的失真约束被设计，并且单独的信息泄露分别为I(S；Y₁)和I(S；Y₂)。假定两个发布的数据Y₁和Y₂通过协同实体或通过隐私代理经由组合被一起组合为(Y₁，Y₂)对。我们希望基于这个信息的组合分析产生的累积隐私泄露I（S；Y₁，Y₂)。

引理1.假定Y₁、Y₂、和S以任意顺序形成马尔可夫链。如果隐私保护映射分别由Y₁和Y₂泄露I（Y₁；S）和I（Y₂；S）位，则该对Y₁和Y₂最多泄露I（Y₁；S)+I（Y₂；S）位的信息。换句话说，I(Y₁，Y₂；S)≤I(Y₁；S)+I(Y₂；S)。此外，如果S→Y₁→Y₂，则I(S；Y₁，Y₂)≤I(Y₁；S）。如果S→Y₂→Y₁，则I(S；Y₁，Y₂)≤I(Y₂；S)。

证明：注意，如果三个随机变量形成马尔可夫链A→B→C，则我们得到I(A；B)≥I(A；B|C)、I(B；C)≥I(B；C|A)、和I(A；C|B)＝0。证明遵从这个事实。

当设计映射时引理1适用，而不管有多少关于P_S，X的知识是可用的。当P_S，X已知时引理1中的界限保持。如果使用基于定理1中产生分离性结果的方法设计隐私保护映射，则引理1中的界限也保持。

注意，一起使用Y₁和Y₂可能导致S的完全恢复。例如，令S、Y₁、和Y₂为三个随机变量，从而使得和则我们得到I(Y₁；S)＝I(Y₂；S)＝0，而I(Y₁，Y₂；S)＝1位并且S可从(Y₁，Y₂)完全恢复。另一示例是当Y₁＝S+N时，其中N是一些噪声并且Y₂＝S-N。我们可以通过添加Y₁和Y₂完全地恢复S。

图2示出了根据本原理的实施例的用于鉴于协同和组合保护隐私的示例性方法200。方法200在步骤205处开始。在步骤210处，基于单个私有数据S和公共数据X₁和X₂来收集统计信息。在步骤220处，鉴于发布的数据Y₁和Y₂的协同或组合决定针对私有数据S的累积隐私保证。也就是说，决定针对I(S；Y₁，Y₂)的泄露因子∈。

遵循引理1，以分散的方式针对公共数据X₁和X₂设计隐私保护映射。在步骤230处，给定针对I(S；Y₁)的泄露因子∈₁，确定针对公共数据X₁的隐私保护映射类似地，在步骤235处，给定针对I(S；Y₂)的泄露因子∈₂，确定针对公共数据X₂的隐私保护映射

在一个实施例中，我们可以设置∈＝∈₁+∈₂，例如，∈₁＝∈₂＝∈/2。根据在步骤230和235处设计的隐私保护映射，

I(S；Y₁)≤∈₁H(S)，I(S；Y₂)≤∈₂H(S)，

使用引理1，我们得到

I(Y₁，Y₂；S)≤I(Y₁；S)+I(Y₂；S)≤∈₁H(S)+∈₂H(S)≤∈H(S)

在步骤240和245处，我们根据隐私保护映射和分别使数据X₁和X₂失真。在步骤250和255处，失真的数据分别作为Y₁和Y₂被发布。

如前面所讨论的，当发布的数据Y₁(而不是Y₂)的合法接收者与发布的数据Y₂(而不是Y₁)的合法接收者交换关于Y₂的信息时，协同可能发生。另一方面，对于组合，两个发布的数据都合法地由相同接收者接收，并且当接收者将来自两个发布的数据的信息进行组合以推断更多关于用户的信息时，组合发生。

接着，我们使用关于极大相关的结果来界定由对Y₁和Y₂泄露的信息的累积量的上界。

定理4.令和被独立地设计，即，以及λ＝max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}。如果I(Y₁；Y₂)≥λI(X₁；X₂)，则我们得到

I(S；Y₁，Y₂)≤I(S；X₁，X₂)max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}.(19)

证明：为了证明该定理我们给出如下。

命题4.令以及λ＝max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}。如果I(Y₁；Y₂)≥λI(X₁；X₂)，则我们得到

S^*(X₁，X₂；Y₁，Y₂)≤max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}.(20)

此外，如果X₁和X₂是独立的(或等同地，(X₁，Y₁)和(X₂，Y₂)是独立的)，则我们得到

S^*(X₁，X₂；Y₁，Y₂)＝max{S^*(X₁；Y₁)，S^*(X₂；Y₂)).

首先，我们证明该命题。先前在Anantharam中已经证明了独立性保持的特定情况，并且一般情况的证明遵循对S^*(X；Y)的张量化(tensorization)的证明的相同思路，其中，如Anantharam中提到的I(Y₁；Y₂)≥λI(X₁；X₂)是为了获得不等式(20)所唯一要求的不等式(参见Anantharam，C部分，第10页)。

回到对定理4的证明：由于我们得到马尔可夫链S→(X₁，X₁)→(Y₂，Y₂)，使用定理1，我们获得

I(S；Y₁，Y₂)≤I(S；X₁，X₂)S^*(X₁，X₂；Y₁，Y₂).

现在，使用命题4，得出证明。

因此，如果两个映射被独立地设计具有小的极大相关，则我们仍然可以界定由对Y₁和Y₂泄露的信息的累积量的界限。

推论1.上界(19)的第一项，即，I(X1，X2；S)可以被界定为如下：

如果X₁、X₂、和S以任意顺序形成马尔可夫链，则I(X，X₂；S)≤I(X；S)+I(X；S)。此外，如果S→X₁→X₂，则I(S；X₁，X₂)≤I(X₁；S)。如果S→X₂→X₁，则I(S；X₁，X₂)≤I(X₂；S)。

证明：该证明类似于对引理1的证明。

注意，I(S；Y₁)、I(S；Y₂)、和I(S；Y₁，Y₂)小于或等于H(S)。如果我们选择

S^*(X₁；Y₁)＜∈，S^*(X₂；Y₂)＜∈，

我们得到

I(S；Y₁，Y₂)≤I(S；X₁，X₂)max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}

≤H(S)max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}＜∈H(S).

图3示出了根据本原理的实施例的用于鉴于协同或组合保护隐私的示例性方法300。除了S^*(X₁；Y₁)＜∈(330)和S^*(X₂；Y₂)＜∈(335)之外，方法300类似于方法200。注意，方法200基于引理1中规定的一些马尔可夫链假设工作，而方法300更一般地工作。

多个私有数据，多个公共数据

假定我们有两个私有随机变量S₁和S₂，其分别与X₁和X₂相关联。我们分别使X₁和X₂失真以获得Y₁和Y₂。分析者已经访问了Y₁和Y₂，并且希望发现(S₁，S₂)。

定理5.令和被独立地设计，即，以及λ＝max{S^*(X₁；Y₁)，S^*(X₂；Y₂)}。如果I(Y₁；Y₂)≥λI(X₁；X₂)，则我们获得

I(S₁，S₂；Y₁，Y₂)≤I(S₁，S₂；X₁，X₂)max{S^*(X₁；Y₁)，S^*(X₂；Y₂)｝.(21)

证明：类似于对定理4的证明。

因此，由(21)界定对Y₁和Y₂的累积信息泄露的界限。具体地，如果X₁和X₂是独立的，则该界限保持。

在图2中，我们讨论方法200，方法200确定鉴于协同或组合考虑单个私有数据和两个公共数据的隐私保护映射。当存在两个私有数据时，方法200在有一些修改的情况下可以被应用。具体地，在步骤210处，我们基于S₁、S₂、X₁、和X₂来收集统计信息。在步骤230处，我们基于给定的针对I(S₁；Y₁)的泄露因子∈₁设计针对公共数据X₁的隐私保护映射在步骤235处，我们基于给定的针对I(S₂；Y₂)的泄露因子∈₂设计针对公共数据X₂的隐私保护映射

类似地，在图3中，我们讨论方法300，方法300确定鉴于协同或组合考虑单个私有数据和两个公共数据的隐私保护映射。当存在两个私有数据时，方法300在有一些修改的情况下可以被应用。具体地，在步骤310处，我们基于S₁、S₂、X₁、和X₂来收集统计信息。在步骤330处，我们基于给定的针对I(S₁；Y₁)的泄露因子∈设计针对公共数据X₁的隐私保护映射在步骤335处，我们基于给定的针对I(S₂；Y₂)的泄露因子∈设计针对公共数据X₂的隐私保护映射

在上文中，我们讨论了关于两个私有数据或两个公共数据。当存在多于两个私有数据或两个公共数据时本原则也可以被应用。

隐私代理是向用户提供隐私服务的实体。隐私代理可以执行下面各项的任意项：

-从用户接收他将何种数据视为私有的、他将何种数据视为公共的、以及他想要何种等级的隐私；

-计算隐私保护映射；

-实现针对用户的隐私保护映射(即，根据映射使他的数据失真)；以及

-发布失真的数据(例如，向服务提供商或数据收集机构发布)。

可以在保护用户数据的隐私的隐私代理中使用本原理。图4描绘了隐私代理在其中可以被使用的示例性系统400的框图。公共用户410发布他们的私有数据(S)和/或公共数据(X)。如前面所讨论的，公共用户可以按原样发布公共数据，也就是说，Y＝X。由公共用户发布的信息变为对隐私代理有用的统计信息。

隐私代理480包括统计收集模块420、隐私保护映射决定模块430、和隐私保护模块440。统计收集模块420可以被用来收集联合分布P_S，X、边缘概率度量P_X、和/或公共数据的均值和协方差。统计收集模块420还可以从数据聚合器(例如bluekai.com)接收统计。根据可用的统计信息，隐私保护映射决定模块430设计数个隐私保护映射机制。隐私保护模块440根据条件概率使私有用户460的公共数据在它被发布之前失真。当公共数据是多维的时(例如，当X既包括X₁也包括X₂时)，隐私保护模块可以鉴于组合分别设计针对X₁和X₂的单独的隐私保护映射。当存在协同时，每个协同实体可以使用系统400来设计单独的隐私保护映射。

注意，隐私代理仅需要统计以进行工作而不需要知道全部的数据，该全部的数据在数据收集模块中被收集并且被允许计算统计。因此，在另一实施例中，数据收集模块可以是收集数据、并且然后计算统计、并且不需要是隐私代理的一部分的独立模块。数据收集模块与隐私代理共享统计。

隐私代理位于用户与用户数据的接收者(例如，服务提供商)之间。例如，隐私代理可以位于用户设备(例如，计算机、或机顶盒(STB))处。在另一示例中，隐私代理可以是单独的实体。

隐私代理的所有模块可以位于一个设备处，或可以被分布在不同设备上，例如，统计收集模块420可以位于数据聚合器处，该数据聚合器仅向模块430发布统计，隐私保护映射决定模块430可以位于“隐私服务提供商”处或位于连接至模块420的用户设备上的用户端处，并且隐私保护模块440可以位于隐私服务提供商处(然后该隐私保护模块440用作用户与服务提供商之间的中介，其中用户希望将数据发布至该服务提供商)或位于用户设备上的用户端处。

隐私代理可以向服务提供商(例如，康卡斯特或Netflix)提供发布的数据，以便私有用户460基于发布的数据改善接收到的服务，例如，推荐系统基于用户发布的电影评价向用户提供电影推荐。

在图5中，我们示出了在系统中存在多个隐私代理。在不同变型中，不需要到处存在隐私代理，因为这不是对于隐私系统进行工作的要求。例如，可以仅在用户设备处存在隐私代理、或仅在服务提供商处存在、或在两者处都存在。在图5中，我们示出了针对Netflix和Facebook二者的相同隐私代理“C”。在另一实施例中，Facebook和Netflix处的隐私代理可以是但不必要是相同的。

例如，可以以方法或过程、装置、软件程序、数据流、或信号来实现本文所描述的实现方式。虽然仅在单一形式的实现方式的上下文中讨论(例如，仅用方法进行讨论)，但是也可以以其他的形式(例如，装置或程序)实现所讨论的特征的实现方式。例如，可以以适当的硬件、软件、和固件实现装置。例如，可以在装置中实现方法，装置例如是处理器，其一般地指处理设备，包括例如，计算机、微处理器、集成电路、或可编程逻辑设备。处理器还可以包括通信设备，例如，计算机、蜂窝电话、便携式/个人数字助理(“PDA”)、以及促进终端用户之间的信息的传送的其他设备。

对本原理的“一个实施例”或“实施例”或“一个实现方式”或“实现方式”以及它们的其他变型的提及表示结合实施例所描述的特定特征、结构、特性等等被包括在本原理的至少一个实施例中。因此，短语“在一个实施例中”或“在实施例中”或“在一个实现方式中”或“在实现方式中”的出现以及在贯穿说明书在各个地方出现的任意其他变型不一定都指同一实施例。

此外，本申请或它的权利要求书可以指“确定”各种信息。确定信息可以包括以下各项中的一个或多个：例如，估计信息、计算信息、预测信息、或从存储器取回信息。

此外，本申请或它的权利要求书可以指“访问”各种信息。访问信息可以包括以下各项中的一个或多个：例如，接收信息、取回信息(例如，从存储器)、存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息、或估计信息。

此外，本申请或它的权利要求书可以指“接收”各种信息。接收以及“访问”旨在是广义的术语。接收信息可以包括以下各项中的一个或多个：例如，访问信息、或取回信息(例如，从存储器)。此外，“接收”通常在操作期间以一种方式或另一种方式涉及：例如，存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息、或估计信息。

对本领域的技术人员将是明显的是，实现方式可以产生被格式化以携带信息(该信息例如可以被存储或被发送)的各种信号。信息可以包括例如用于执行方法的指令或由所描述的实现方式中的一个产生的数据。例如，信号可以被格式化以携带所描述的实施例的比特流。这样的信号例如可以被格式化为电磁波(例如，使用频谱的射频部分)或基带信号。例如，格式化可以包括编码数据流和用编码的数据流调制载波。信号携带的信息例如可以是模拟信息或数字信息。如公知的，可以通过各种不同的有线的链路或无线链路来发送信号。信号可以被存储在处理器可读介质上。

Claims

1.一种用于处理用户的用户数据的方法，包括以下步骤：

访问所述用户数据，所述用户数据包括私有数据、第一公共数据和第二公共数据，所述第一公共数据对应于第一类数据，并且所述第二公共数据对应于第二类数据；

确定(220，320)所述私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限；

响应于第一界限，确定所述私有数据与所述第一发布的数据之间的第二信息泄露界限、以及所述私有数据与所述第二发布的数据之间的第三信息泄露界限；

响应第二界限确定(230，235，330，335)第一隐私保护映射，所述第一隐私保护映射将所述第一类数据映射至所述第一发布的数据，以及响应第三界限确定(230，235，330，335)第二隐私保护映射，所述第二隐私保护映射将所述第二类数据映射至所述第二发布的数据；

分别基于所述第一隐私保护映射和所述第二隐私保护映射来修改(240，245，340，345)所述用户的所述第一公共数据和所述第二公共数据，以形成所述第一发布的数据和所述第二发布的数据；以及

将经修改的第一公共数据和经修改的第二公共数据发布(250，255，350，355)至服务提供商和数据收集机构中的至少一个。

2.如权利要求1所述的方法，其中，所述第二界限和所述第三界限的组合实质上对应于所述第一界限。

3.如权利要求1所述的方法，其中，所述第二界限和所述第三界限中的每一个实质上等于所述第一界限。

4.如权利要求1所述的方法，其中，所进行的发布步骤将所述经修改的第一公共数据发布至第一接收者，并且将所述经修改的第二公共数据发布至第二接收者，其中所述第一接收者和所述第二接收者被配置为交换与所述经修改的第一公共数据和所述经修改的第二公共数据有关的信息。

5.如权利要求1所述的方法，其中，所进行的发布步骤将所述经修改的第一公共数据和所述经修改的第二公共数据发布至相同的接收者。

6.如权利要求1所述的方法，还包括以下步骤：

确定协同或组合是否在服务提供商和数据收集机构中的所述至少一个处发生。

7.如权利要求1所述的方法，其中，确定所述第一隐私保护映射和所述第二隐私保护映射的步骤是基于极大相关技术的。

8.如权利要求1所述的方法，其中，所述私有数据包括第一私有数据和第二私有数据，其中确定所述第二信息泄露界限步骤的步骤确定所述第一私有数据与所述第一公共数据之间的第二界限、以及所述第二私有数据与所述第二公共数据之间的第三界限。

9.一种用于处理用户的用户数据的装置，包括：

处理器，所述处理器被配置为访问所述用户数据，所述用户数据包括私有数据、第一公共数据和第二公共数据，所述第一公共数据对应于第一类数据，并且所述第二公共数据对应于第二类数据；

隐私保护映射决定模块(430)，所述隐私保护映射决定模块被配置为

确定所述私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限，

响应于第一界限，确定所述私有数据与所述第一发布的数据之间的第二信息泄露界限、以及所述私有数据与所述第二发布的数据之间的第三信息泄露界限，

响应第二界限确定第一隐私保护映射，所述第一隐私保护映射将所述第一类数据映射至所述第一发布的数据，以及响应第三界限确定第二隐私保护映射，所述第二隐私保护映射将所述第二类数据映射至所述第二发布的数据；以及

隐私保护模块(440)，所述隐私保护模块被配置为

分别基于所述第一隐私保护映射和所述第二隐私保护映射来修改所述用户的所述第一公共数据和所述第二公共数据，以形成所述第一发布的数据和所述第二发布的数据，以及

将经修改的第一公共数据和经修改的第二公共数据发布至服务提供商和数据收集机构中的至少一个。

10.如权利要求9所述的装置，其中，所述第二界限和所述第三界限的组合实质上对应于所述第一界限。

11.如权利要求9所述的装置，其中，所述第二界限和所述第三界限中的每一个实质上等于所述第一界限。

12.如权利要求9所述的装置，其中，所述隐私保护模块(440)将所述经修改的第一公共数据发布至第一接收者，并且将所述经修改的第二公共数据发布至第二接收者，其中所述第一接收者和所述第二接收者被配置为交换与所述经修改的第一公共数据和所述经修改的第二公共数据有关的信息。

13.如权利要求9所述的装置，其中，所述隐私保护模块(440)将所述经修改的第一公共数据和所述经修改的第二公共数据发布至相同的接收者。

14.如权利要求9所述的装置，其中，所述隐私保护映射决定模块(430)还被配置为确定协同或组合是否在服务提供商和数据收集机构中的所述至少一个处发生。

15.如权利要求9所述的装置，其中，所述隐私保护映射决定模块(430)基于极大相关技术来确定所述第一隐私保护映射和所述第二隐私保护映射。

16.如权利要求9所述的装置，其中，所述私有数据包括第一私有数据和第二私有数据，并且其中所述隐私保护映射决定模块(430)确定所述第一私有数据与所述第一公共数据之间的第二信息泄露界限、以及所述第二私有数据与所述第二公共数据之间的第三信息泄露界限。

17.一种其上存储有指令的计算机可读存储介质，所述指令用于根据权利要求1-8处理用户的用户数据。