CN117407921A

CN117407921A - 基于必连和勿连约束的差分隐私直方图发布方法及系统

Info

Publication number: CN117407921A
Application number: CN202311475434.2A
Authority: CN
Inventors: 薛瑞昕; 郭龙坤
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-01-16

Abstract

本发明提出了基于必连和勿连约束的差分隐私直方图发布方法及系统，涉及直方图发布技术领域，采用指数机制结合k‑means++抽样，在必连和勿连约束下，从待发布的直方图中选取满足差分隐私的预设个数个受限聚类质心桶，作为初始的质心桶；在必连和勿连约束下，分配非质心桶给质心桶，迭代更新质心桶，添加自适应噪声，直到迭代次数达到指定值，得到添加噪声后的新簇集；对添加噪声后的新簇集进行簇合并，得到满足差分隐私的可发布直方图；其中，所述必连和勿连约束，在质心桶初始化阶段用满足勿连约束的样本作为初始聚类质心的候选集；在质心桶的更新阶段用必连勿连约束来调整样本的簇隶属关系。本发明能有效控制噪声量，提高数据效用的同时保护数据隐私。

Description

基于必连和勿连约束的差分隐私直方图发布方法及系统

技术领域

本发明属于直方图发布技术领域，尤其涉及基于必连和勿连约束的差分隐私直方图发布方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在数据发布中采用差分隐私保护技术是差分隐私研究中的一项重要内容，目前已有众多技术在交互式和非交互式两种不同的实现环境下，研究差分隐私在数据发布中的隐私保护程度，发现差分隐私保护算法不仅可以应用于数据发布而且也能够在数据发布中实现有效的隐私保护。

直方图常常被用来描述在特定数据集或数据域中指定属性值的分布情况。对直方图进行线性查询，有助于了解特定属性的统计类信息。所以，当待发布的数据类型为简单的数值型数据时，通常使用直方图作为数据的发布方式。

一方面，直接发布原始数据的直方图则会遭到攻击者利用一些攻击模型来获取敏感信息，导致用户个人敏感信息的隐私泄露。另一方面，服务器绘制直方图进行发布需要获取用户的原始数据信息，若存储用户原始数据的数据库遭到非法攻击导致原始数据的泄露，或者服务器本身就是不可信任的，则也会导致用户的隐私泄露。

出于保护社交网络用户隐私的目的，把差分隐私保护模型应用到以直方图的形式发布数据上，经典的做法是直接在直方图的各个区间上添加Lap lace噪声，这也是Dwork等人提出差分隐私保护模型时给出的解决方案。

数据可用性和隐私性向来在天平的两端，在保护数据隐私的情况下，势必会造成可用性的降低。如果简单地在直方图的每个区间都添加大小一定的噪声，在进行线性查询时，例如，查找年龄区间在四倍大小区间的用户人数时，查询结果就会累积四倍噪声，由于噪声太大，极有可能导致最终结果不可用。

为了使数据发布结果在满足差分隐私保护模型的基础上提高可用性，最根本的解决办法就是降低向结果中添加的Laplace噪声；现在已经有了分区解决方案，这种方案的思想就是将直方图的各个区间按照值进行“动态聚类”，将直方图的区间划分为若干个分区，然后以分区为单位添加噪声。这样，均摊到每个直方图区间上噪声就显著减少了，从而提高了最终的数据发布结果的可用性；但是，这种简单地将直方图的区间划分为若干个分区、以分区为单位添加噪声的方式，尽管能够相对减少噪声的添加，并不能很好地平衡数据效用和隐私性；因此，现有差分隐私直方图发布方案依然无法兼顾数据效用和数据隐私。

发明内容

为克服上述现有技术的不足，本发明提供了基于必连和勿连约束的差分隐私直方图发布方法及系统，能有效控制噪声量，提高数据效用的同时保护数据隐私。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于必连和勿连约束的差分隐私直方图发布方法。

基于必连和勿连约束的差分隐私直方图发布方法，包括：

采用指数机制结合k-means++抽样，在必连和勿连约束下，从待发布的直方图中选取满足差分隐私的预设个数个受限聚类质心桶，作为初始的质心桶；

在必连和勿连约束下，分配非质心桶给质心桶，迭代更新质心桶，添加自适应噪声，直到迭代次数达到指定值，得到添加噪声后的新簇集；

对添加噪声后的新簇集进行簇合并，得到满足差分隐私的可发布直方图；

其中，所述必连和勿连约束，在质心桶初始化阶段用满足勿连约束的样本作为初始聚类质心的候选集；在质心桶的更新阶段用必连勿连约束来调整样本的簇隶属关系。

进一步的，所述质心桶初始化阶段的具体操作为：

在从待发布的直方图中随机选取一个桶作为初始的质心桶，计算非质心桶与质心桶之间的最短距离；

基于非质心桶与质心桶之间的最短距离，结合指数机制，计算出每个非质心桶的抽样概率；

以计算出来的抽样概率选取第一个初始质心桶后，根据其他非质心桶受必连和勿连约束的情况，循环计算每个非质心桶的抽样概率，选取下一个质心桶；循环执行，直到选出预设个数个质心桶，作为初始的质心桶。

进一步的，所述选取下一个质心桶，具体为：

若受必连约束，则取该必连集合的质心代表该组必连集合加入初始化质心集合；若受勿连约束，该桶直接作为一个质心。

进一步的，所述更新质心桶，具体为：

每一次迭代质心后，将非质心桶依次分配给初始聚类质心集中每个质心桶所在的簇；

剩余桶若属于必连约束集合，将权重为预设值的质心分配给初始聚类质心；若不属于必连约束集合，直接分配给该桶最近的簇质心，直至将所有的桶分配完，得到初始的簇集合；

用均值计算质心；

基于均值，在桶的范围和计数中添加一定量的拉普拉斯噪声，得到加噪声后的预设个数个噪声质心；

最后得到给质心加噪指定次数的新簇集。

进一步的，所述将非质心桶依次分配给初始聚类质心集中每个质心桶所在的簇，具体为：

在分配非质心桶时，先从相对约束较大的勿连约束集合入手，若勿连约束集合中的桶属于必连约束集合，则用该必连约束集合的权重为预设值的质心代表该桶；若勿连约束集合中的桶不属于必连约束集合，直接用该桶计算使总平方距离和最小，并将这些桶分别分配给其对应的质心。

进一步的，所述对添加噪声后的新簇集进行簇合并，具体为：

将添加噪声后的质心桶按照计数平均值用任意方法排序；

将计数相近的簇合并到同一集群；

根据计数平均值和减少的噪声之和替换计数；

得到满足差分隐私的可发布直方图。

进一步的，所述根据计数平均值和减少的噪声之和替换计数，用公式表示为：

其中，表示正在处理的第m个合并后的集群C_m的均值，/>表示聚类完成后的n×k个簇中的一个簇。/>表示对集群C_m添加隐私预算为∈₂的噪声后的带噪声的最终集群，/>表示迭代t_s次后的质心桶集。

本发明第二方面提供了基于必连和勿连约束的差分隐私直方图发布系统。

基于必连和勿连约束的差分隐私直方图发布系统，包括质心初始化模块、质心更新模块和桶合并模块：

质心初始化模块，被配置为：采用指数机制结合k-means++抽样，在必连和勿连约束下，从待发布的直方图中选取满足差分隐私的预设个数个受限聚类质心桶，作为初始的质心桶；

质心更新模块，被配置为：在必连和勿连约束下，分配非质心桶给质心桶，迭代更新质心桶，添加自适应噪声，直到迭代次数达到指定值，得到添加噪声后的新簇集；

桶合并模块，被配置为：对添加噪声后的新簇集进行簇合并，得到满足差分隐私的可发布直方图；

其中，所述必连和勿连约束，在质心桶初始化阶段用满足勿连约束的样本作为初始聚类质心的候选集，在质心桶的更新阶段用必连勿连约束来调整样本的簇隶属关系。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于必连和勿连约束的差分隐私直方图发布方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于必连和勿连约束的差分隐私直方图发布方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明在聚类算法中加入了必连、勿连约束，在聚类质心初始化阶段，用满足勿连约束的样本作为初始聚类质心的候选集，在聚类簇的更新阶段，用必连勿连约束来调整样本的簇隶属关系，解决实际的聚类问题的同时使聚类精确度提高。

本发明的差分隐私直方图发布方案中，将隐私预算分为两部分，分别用于初始质心选取和质心自适应噪声添加，并且通过合并集群的方法使噪声相互抵消，能够有效控制噪声量，提高数据效用的同时保护数据隐私。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例质心初始化的流程图。

图3为第一个实施例非质心桶分配的流程图。

图4为第一个实施例质心更新的流程图。

图5为第一个实施例簇合并的流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

必连(must-link,ML)约束：多个数据必属于一个集合；

勿连(cannot-link,CL)约束：多个数据必不属于一个集合。

差分隐私：密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。

直方图：一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。每个纵向条纹或线段称为一个“桶”。

直方图数据发布是一种数据匿名化的方法，它可以将原始数据划分为若干个区间，并且统计每个区间内的数据频数，从而保护数据的隐私；必连和勿连约束可以用来指定哪些数据应该被划分到同一个区间，或者哪些数据应该被划分到不同的区间；这样可以提高直方图数据发布的效率和质量。

具体来说，必连和勿连约束可以用来构造一个优化问题，目标是最小化直方图的失真度，即原始数据和直方图数据之间的差异；同时，必连和勿连约束也可以作为优化问题的约束条件，要求满足必连约束的数据被划分到同一个区间，满足勿连约束的数据被划分到不同的区间。

假设有一个包含年龄和收入的数据集，如下表所示：

表1包含年龄和收入的数据集

年龄	收入
		23	3000
25	3500
		27	4000
29	4500
		31	5000

想要将这个数据集发布为直方图数据，但是不想泄露每个人的具体信息；可以使用必连和勿连约束来指定哪些数据应该被划分到同一个区间，或者哪些数据应该被划分到不同的区间。例如，可以指定：

必连约束：年龄相差不超过2岁的数据必须在同一个区间。

勿连约束：收入相差超过1000元的数据必须在不同的区间。

根据这些约束，可以将原始数据划分为以下的直方图数据：

表2直方图数据

年龄区间	收入区间	频数
			[23,25]	[3000,4000]	2
[27,29]	[4000,5000]	2
			[31,31]	[5000,5000]	1

直方图聚类的过程中，必连勿连约束可以用来指导聚类的结果，使得满足必连约束的样本被分到同一个簇，而满足勿连约束的样本被分到不同的簇；必连和勿连约束可以在本发明的以下环节中使用：

聚类质心的初始化，可以用满足必连约束的样本作为初始聚类质心，或者用满足勿连约束的样本作为初始聚类质心的候选集。

聚类簇的更新，可以用必连勿连约束来调整样本的簇隶属关系，或者用必连勿连约束来惩罚不符合约束的聚类结果。

通过加入必连和勿连约束，提高直方图数据聚类发布的效率和质量，但是也可能增加直方图数据聚类发布的复杂度和计算量；加入必连和勿连约束可能会影响差分隐私的保证程度，因为必连和勿连约束可能会暴露一些关于原始数据的信息；因此，在实际应用中，需要根据具体的场景和需求，权衡利弊，选择合适的方法。

本发明提出了采用指数机制结合k-means++抽样选取n×k个初始质心桶，其中，k是最终生成的差分隐私直方图的集群个数，n为预设的参数值，指定迭代次数，每次迭代更新质心时添加自适应噪声，最后通过集群合并降低上一环节的噪声量，来平衡直方图数据的可用性和隐私性；并且本发明在聚类算法中加入了必连、勿连约束，在聚类质心初始化阶段，用满足勿连约束的样本作为初始聚类质心的候选集，在聚类簇的更新(非质心桶的分配)阶段，用必连勿连约束来调整样本的簇隶属关系，有效控制噪声量，提高数据效用的同时保护数据隐私。

实施例一

在一个或多个实施方式中，公开了基于必连和勿连约束的差分隐私直方图发布方法，采用指数机制结合k-means++抽样在必连和勿连约束下选取n×k个初始质心桶，在每次迭代过程中更新质心桶，并在必连和勿连约束下分配其他非质心桶，对质心桶添加自适应Laplace噪声，得到n×k个簇；把计数相近的n个簇合并在一起，得到k个集群，最后以k个集群的计数平均值和减少的Laplace噪声之和替换计数并得到满足差分隐私的可发布数据。

对于不同规模、不同维度的数据，都可以通过这种方法进行数据发布，并且根据实际需要规定必连和勿连约束集合、聚类数目和隐私预算，如图1所示，基于必连和勿连约束的差分隐私直方图发布方法包括如下步骤：

步骤S1：采用k-means++算法和指数机制结合，选取满足差分隐私的n×k个受限聚类质心。

初始质心桶的选取直接决定了分组的效果，若n×k个初始质心属于同一个簇，则会降低分组的准确性，因此要求聚类质心桶选取尽量离散，它确保初始质心尽可能地分开，如图2所示，步骤为：

(1)对原始直方图数据H＝{H₁,H₂,…,H_N}设置质心数量n×k，一组桶集x＝{X₁,…,X_h}，一组桶集

必连约束集合，定义为一组桶集x＝{X₁,…,X_h},每个都是一个必连约束集合，给定桶H_i,H_j,若/>那么H_i,H_j∈C_j，C_j是直方图数据H聚类完成后的n×k个簇中的某个簇；

勿连约束集合，定义为一组桶集每个/>是一个满足|Y_i|≤n×k的勿连约束集合，给定桶H_i,H_j,若/>且H_i∈C_j，那么必须/>C_j是直方图数据H聚类完成后的n×k个簇中的某个簇。

(2)在直方图数据中随机选取一个桶作为初始的质心桶，为了使挑取的各质心桶在数据中分布尽量离散，计算非质心桶与质心桶之间的最短距离，公式为：

c_j∈C,(j＝1,2,…,n×k)

其中，u(H,c_j)表示每个非质心桶到质心桶的最短距离，H_j表示原始直方图数据中的非质心桶，c_j表示已经选取为质心的桶。

(3)结合指数机制，计算出每个非质心桶的抽样概率：

其中，抽样概率Pr(H,c_j)用以表示非质心桶H_j被选择为下一个质心c_j的概率，∈₁为隐私预算，Δu₁为此阶段的全局敏感度，针对此线性查询，Δu₁＝1。N表示非质心桶的数量，分子计算的是某一个非质心桶的适应度值，分母计算的是所有非质心桶的适应度值的和。

(4)随机选取第一个质心桶作为初始质心桶后，根据其他非质心桶受ML/CL约束的情况，计算每个非质心桶的抽样概率Pr(H,c_j)，并依据抽样概率选取下一个质心桶，循环执行，直到选出n×k个质心桶作为初始质心桶集合，而且质心桶c_j属于簇C_j。

其中，根据其他非质心桶受ML/CL约束的情况，计算Pr(H,c_j)选取下一个质心桶，具体为：

依据抽样概率选取的非质心桶，若受ML约束，则取该ML集合的质心代表该组ML集合，加入到初始质心桶集合；若受CL约束，该桶直接作为一个质心桶，加入到初始质心桶集合。

步骤S2：在必连和勿连约束下分配非质心桶给质心桶，迭代更新质心桶，添加自适应噪声，图3是下面步骤(1)(2)的流程图，图4是下面步骤(3)(4)的流程图，如图3、4所示，具体为：

(1)每一次迭代质心后，将非质心桶依次分配给初始聚类质心集中每个质心桶所在的簇。

在分配非质心桶时，为了达到更小的代价，先从相对“约束较大”的CL集合入手，若CL集合中的桶属于ML集合，则用该ML集合的权重为|X|的质心代表该桶；若CL集合中的桶不属于ML集合，直接用该桶计算使总平方距离和最小，并将这些桶分别分配给其对应的质心桶，加入到该质心桶对应的簇中。这里的总平方距离和，计算公式为：

其中，表示聚类完成后的簇集，/>包含n×k个簇。

(2)剩余桶若属于ML集合，将权重为|X|的质心分配给初始聚类质心；若不属于ML集合，直接分配给该桶最近的簇质心，直至将所有的桶分配完，得到初始的簇集合。

在算法的前几次迭代中，质心变化很大，可以注入相对更多的噪声。随着迭代次数的增加，质心的变化越来越小，趋于稳定，可以添加少量的噪声，以确保更好的聚类结果。在这里可以指定一定的迭代次数以及每次添加噪声的大小。

例如指定总迭代次数t＝10，每次迭代添加噪声的大小如表格所示：

表3每次迭代添加噪声的大小表

(3)在分配非质心桶后，簇内的桶发生变化，用均值重新计算簇的质心，具体为：

num(C_j)＝|C_j|

(4)直方图的每个桶可以用二维数组表示，维度d＝2，为了保护直方图桶的信息，在上述每一次迭代的计算过程中，需要在桶的范围和计数中添加一定量的拉普拉斯噪声，然后得到加噪声后的n×k个噪声质心，具体为：

每一次迭代中，

sum′(C_j)＝sum(C_j)+(Y₁,…,Y_d)

num′(C_j)＝num(C_j)+Y_d+1

那么，每一次迭代给质心加噪声的过程表示为：

计算有噪声质心的函数为：

需要说明的是，∈_t是当前迭代的隐私预算，∈₂＝∑∈_t。

最后得到给质心加噪t_s次的新簇集

需要说明的是，以上(1)(2)非质心桶的分配步骤用单独的流程图(3)表示，流程图中的i和j仅为计次含义。

步骤S3：通过合并计数相近的簇来减少噪声对质心的影响。

上一步骤添加到每个质心上的噪声是随机的，对于k-均值聚类算法，在迭代次数达到指定的值后，可以将原始直方图数据划分成的n×k个簇，即上述S2的输出结果新簇集本步骤迭代地将计数相近的n个簇合并为一个簇，即把n×k个簇合并为k个集群，如图5所示，具体步骤为：

(1)首先将n×k个簇按照计数平均值用任意方法排序，具体为：

(2)将计数相近的n个簇合并到同一集群，具体为：

(3)根据计数平均值和减少的Laplace噪声之和替换计数，具体为：

(4)得到满足差分隐私的可发布直方图，具体为：

实施例二

在一个或多个实施例中，公开了基于必连和勿连约束的差分隐私直方图发布系统，包括质心初始化模块、质心更新模块和桶合并模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于必连和勿连约束的差分隐私直方图发布方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于必连和勿连约束的差分隐私直方图发布方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，包括：

在必连和勿连约束下，分配非质心桶给质心桶，迭代更新质心桶，添加自适应噪声，直到迭代次数达到指定值，得到添加噪声后的新簇集，得到添加噪声后的新簇集；

2.如权利要求1所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述质心桶初始化阶段的具体操作为：

3.如权利要求2所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述选取下一个质心桶，具体为：

4.如权利要求1所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述更新质心桶，具体为：

用均值计算质心；

最后得到给质心加噪指定次数的新簇集。

5.如权利要求4所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述将非质心桶依次分配给初始聚类质心集中每个质心桶所在的簇，具体为：

6.如权利要求1所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述对添加噪声后的新簇集进行簇合并，具体为：

将添加噪声后的质心桶按照计数平均值用任意方法排序；

将计数相近的簇合并到同一集群；

根据计数平均值和减少的噪声之和替换计数；

得到满足差分隐私的可发布直方图。

7.如权利要求6所述的基于必连和勿连约束的差分隐私直方图发布方法，其特征在于，所述根据计数平均值和减少的噪声之和替换计数，用公式表示为：

其中，表示正在处理的第m个合并后的集群C_m的均值，/>表示聚类完成后的簇。/>表示对集群C_m添加隐私预算为∈₂的噪声后的带噪声的最终集群，/>表示迭代t_s次后的质心桶集。

8.基于必连和勿连约束的差分隐私直方图发布系统，其特征在于，包括质心初始化模块、质心更新模块和桶合并模块：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。