CN115098881A

CN115098881A - 一种基于敏感等级划分的数据扰动方法及装置

Info

Publication number: CN115098881A
Application number: CN202210684482.1A
Authority: CN
Inventors: 黄屿璁; 吕鑫; 张潮; 高晟凯; 李鑫; 曾涛; 王鑫元; 徐振楠
Original assignee: Ministry Of Water Resources Information Center; Hohai University HHU
Current assignee: Ministry Of Water Resources Information Center; Hohai University HHU
Priority date: 2022-04-07
Filing date: 2022-06-17
Publication date: 2022-09-23

Abstract

本发明公开了一种基于敏感等级划分的数据扰动方法及装置，该方法包括：1）对输入值域内每一项数据的敏感度进行评估并确定每个敏感等级的划分标准及对应的隐私预算；2）根据数据敏感度评估结果计算出数据的综合敏感度；3）对照敏感等级的划分标准，确定用户数据敏感等级与隐私预算；4）使用对应的隐私预算对数据进行扰动。本发明通过对数据的敏感等级进行划分，结合数据自身敏感度与用户的隐私需求为不同等级的数据分配不同的隐私预算进行扰动，能有效地减少噪声引入，提高统计结果的精度。

Description

一种基于敏感等级划分的数据扰动方法及装置

技术领域

本发明涉及数据发布与隐私保护技术领域，具体涉及一种基于敏感等级划分的数据扰动方法及装置。

背景技术

随着智能终端设备的普及以及大数据技术的飞速发展，越来越多的网络运营商通过客户端、网络服务等方式收集用户数据，以改善软件及服务的质量，为用户提供更准确、更有价值的内容。一旦发生隐私泄露的问题，不仅会为用户带来很大的风险，还会对企业自身造成经济与名誉上的双重损失。在这样的过程中用户个人隐私的保护是重中之重，如何在数据收集的过程中保护用户个人隐私，是当今社会关注的一个热点问题。

差分攻击是一种通过比对邻近数据库之间的差异获取信息的隐私攻击方式，传统的隐私保护方式无法防止差分攻击。针对此，有学者提出了一种新的隐私保护模型——差分隐私。差分隐私通过对原有数据添加噪声以达到扰动的作用，与其他隐私保护模型的区别在于差分隐私利用严格的数学定义证明了自身的隐私保护能力，并通过隐私预算参数对隐私保护水平进行量化，能有效地抵抗差分攻击。

差分隐私依赖于一个可信的第三方服务器，若服务器遭受到隐私攻击还是存在隐私泄露的风险。为了解决这一问题，有学者在差分隐私的基础上提出了本地差分隐私。本地差分隐私将数据扰动的过程放在用户端，由用户对数据进行扰动后再发送给服务器，因此摆脱了对第三方服务器的依赖，大大降低了隐私泄露的风险。

数据统计分析是本地差分隐私的主要应用与研究热点之一，主要包括对用户数据的频率估计与均值估计。频率估计针对分类型数据，通过收集所有用户数据统计每一项数据出现的频率；均值估计则针对数值型数据，在频率估计的基础上计算数据的均值。为了给统计分析的过程提供本地差分隐私保护，用户在上传数据前需要使用扰动方法对数据进行加噪，再由服务器进行统计与校正。

隐私预算的大小决定了扰动方法的隐私保护水平，也是影响结果精度的重要因素。目前针对统计分析的扰动方法大多都使用相同隐私预算对所有用户的数据进行扰动，没有对用户数据及用户的隐私敏感程度进行区分。现实中不同数据、不同用户的隐私保护需求很大可能存在差异，若直接为所有用户提供最严格的隐私保护，可能会引入很多不必要的噪声。

发明内容

本发明的目的在于提出一种基于敏感等级划分的数据扰动方法及装置，通过对用户数据隐私敏感程度进行分级的方式实现隐私预算的合理分配，结合数据敏感度与用户的隐私需求为不同等级的数据提供不同水平的本地差分隐私保护，从而减少噪声的引入，提高统计结果的精度。

为达到上述目的，本发明采用以下技术方案：

本发明提供一种基于敏感等级划分的数据扰动方法，括：

获取输入值域内每一项数据的敏感度，以及划分用户的敏感等级和各敏感等级对应的隐私预算；

根据每一项数据的敏感度，计算用户发送数据的综合敏感度；

根据用户敏感等级划分，结合所计算的综合敏感度，确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算；

对用户发送数据进行填充，使得数据长度达到预设长度；

从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动。

进一步的，所述划分用户的敏感等级和各敏感等级对应的隐私预算，包括：

设置k个敏感等级，用L_j表示第j级对应的敏感节点，其中1≤j≤k且L₀＝0,L_j-1＜L_j；

当用户的数据敏感度在范围(L_j-1,L_j]时，表示该用户的敏感等级为j；

为每个敏感等级设置隐私预算，用∈_j表示第j级对应的隐私预算，其中，1≤j≤k且∈₁＞∈₂＞...＞∈_k。

进一步的，所述计算用户发送数据的综合敏感度，包括：

其中，S_i表示用户u_i的综合敏感度，Q(·)表示打分函数，X_i＝{x₁,x₂,...,x_m}表示用户u_i发送的数据集合，其中x₁,x₂,...,x_m∈D且1≤m≤d，D＝{x₁,x₂,...,x_d}表示输入值域，m表示用户发送数据个数，d表示输入值域数据个数，

表示用户u_i对于数据x_j的发送意愿，s_j表示数据x_j的敏感度。

进一步的，所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算，包括：

使用二分查找法找到计算得到的综合敏感度S_i所在的区间，假设是(L_j-1,L_j]，即L_j-1≤S_i≤L_j，则确定用户发送数据的敏感等级为j，对应的隐私预算为∈_j。

进一步的，所述对用户发送数据进行填充，使得数据长度达到预设长度，包括：

预设填充长度l与填充数据集D_l＝{⊥₁,⊥₂,...,⊥_l-1}，其中1≤l≤d；

如果用户u_i发送数据个数m满足m＜l，则从D_l中随机选取l-m项数据加入到用户u_i发送数据集合X_i中；若m＞l则从X_i中随机选取m-l项数据删除。

进一步的，所述填充长度l大于所有用户中90％数据的长度；

所述充数据集D_l中所有数据均不属于D。

进一步的，还包括，

若用户数据均为单值数据，则不进行填充采样。

进一步的，所述从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动，包括：

按以下方式选择相应的协议对所选择的数据进行扰动：

其中，

为方差临界值，d′＝|D|+l-1表示填充后值域的大小，满足

时，采用OLH协议对用户发送数据进行扰动；

时，采用GRR协议对用户发送数据进行扰动；

所述采用OLH协议对用户发送数据进行扰动，包括：

采用不同的哈希函数将输入数据映射到一个长度为g的集合中，表示如下：

其中，y、x为填充后的值域中的任意数据，H_i表示用户u_i使用的哈希函数，

所述采用GRR协议对用户发送数据进行扰动，包括：

在输入值域内通过一个概率公式对数据进行保留或替换操作，表示为：

其中，Pr[Ψ_GRR(x)＝y]表示算法Ψ输入x输出y的概率。

进一步的，还包括：

将扰动后的数据发送给服务器，服务器在统计时再乘以l。

本发明还提供一种基于敏感等级划分的数据扰动装置，包括：

初始化模块，用于获取输入值域内每一项数据的敏感度，以及划分用户的敏感等级和各敏感等级对应的隐私预算；

第一计算模块，用于根据每一项数据的敏感度，计算用户发送数据的综合敏感度；

第二计算模块，用于根据用户敏感等级划分，结合所计算的综合敏感度，确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算；

填充模块，用于对用户发送数据进行填充，使得数据长度达到预设长度；

以及，

扰动模块，用于从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动。

与现有技术相比，本发明的有益效果是：

1、本发明提供的基于敏感等级划分的数据扰动方法，通过分析用户数据的隐私敏感度与用户的隐私需求，确定发送数据的敏感等级，并根据不同敏感等级分配不同的隐私预算。在对用户进行敏感等级划分的同时使用对应的隐私预算对数据进行扰动，有效地减少了噪声的引入，提高了统计结果的精度；

2、本发明提供的基于敏感等级划分的数据扰动方法，根据输入值域的大小以及用户隐私预算的不同，选用误差更小的扰动协议对数据进行扰动，进一步提高了统计结果精度；

3、本发明提供的基于敏感等级划分的数据扰动方法，可用于频率估计，也可用于均值估计；数据类型可以是单值数据，也可以是集值数据；并且可与现有的大多数方案进行结合，具有很强的可扩展性。

附图说明

图1为本发明提供的一种基于敏感等级划分的数据扰动方法流程图；

图2为本发明实施例中对数据敏感度及敏感等级设置示例；

图3为本发明实施例中用户对数据进行扰动的流程图。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明提供一种基于敏感等级划分的数据扰动方法，参见图1，包括：

获取输入值域D内每一项数据的敏感度以及所有用户的敏感等级，以及各敏感等级对应的隐私预算；

根据敏感等级划分标准，结合所计算的综合敏感度，确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算∈_j，其中1≤j≤k；

使用填充采样技术对用户发送数据进行处理，使得数据长度等于l，并从填充后的用户发送数据中选择一个数据；

计算填充后值域D′的大小d′＝|D|+l-1，根据d′选择GRR协议或OLH协议对所选择的数据进行扰动，将扰动结果与敏感等级发送给服务器。

本发明一个实施例提供的一种基于敏感等级划分的数据扰动方法，具体实现过程如下：

步骤S1、对服务器输入值域D＝{x₁,x₂,...,x_d}内的所有数据进行敏感度评估，并设置敏感等级1,2,...,k，将结果发送给所有用户，如图2所示，具体过程如下：

S11：对输入值域D中的每一项数据的隐私敏感程度进行评估，用s_i表示数据x_i的敏感度，其中1≤i≤d。x_i的敏感程度越高，s_i的值就越大。不同数据对应的敏感度可以相等；

需要说明的是，本实施例中由服务器在统计前根据实际情况对输入值域内的每一项数据的敏感度进行人工评估，并设置为s_i。

S12：设置敏感等级1,2,...,k，用来表示不同用户的隐私敏感程度，等级越高代表敏感程度越高。该敏感程度包括用户所拥有数据本身的敏感程度以及不同数据对于不同用户的敏感程度。用L_j表示第j级对应的敏感节点，其中1≤j≤k且L₀＝0。敏感节点是两个敏感等级之间的临界点，等级越高敏感节点的值越大，即L_j-1＜L_j。当用户最终计算的数据敏感度在范围(L_j-1,L_j]时，表示该用户的敏感等级为j；

S13：为每个敏感等级设置隐私预算。隐私预算是衡量扰动算法隐私保护水平的关键指标，隐私预算的值越小，算法隐私保护水平越高。用ε＝{∈₁,∈₂,...,∈_k}表示隐私预算集合，其中第j级对应的隐私预算为∈_j,1≤j≤k。敏感等级越高，对应的隐私预算则越小，即∈₁＞∈₂＞...＞∈_k；

S14：将设置结果发送给所有用户，包括每一项数据敏感度的评估结果、k个敏感等级对应的敏感节点与隐私预算。

步骤S2至S5为用户扰动数据的过程，如图3所示，具体如下：

步骤S2、用户根据数据敏感度评估的结果，使用打分函数计算出所发送数据的综合敏感度，具体如下：

假设用户u_i每次发送给服务器的数据集合X_i＝{x₁,x₂,...,x_m}，其中x₁,x₂,...,x_m∈D且1≤m≤d。用Q表示打分函数，S_i表示用户u_i的综合敏感度，S_i的值越大，表示用户u_i所发送数据的隐私敏感程度越高。S_i的计算方法如下：

其中，

表示用户u_i对于数据x_j的发送意愿，

值越大表示用户u_i越不愿意发送x_j，即x_j对于u_i的敏感程度越高。当u_i不对x_j进行发送意愿的设置时，默认

需要说明的是，

是用户上传数据前根据该数据对于用户自身的敏感程度进行设置的(相当于选择数据的安全级别)

步骤S3、用户参照敏感等级划分标准，结合所计算的综合敏感度，确定用户所发送数据的敏感等级及所对应的隐私预算。具体过程如下：

用户u_i对照各等级的敏感节点值，使用二分查找法找到由步骤S2计算得到的S_i所在的区间，假设是(L_j-1,L_j]，即L_j-1≤S_i≤L_j，则可以确定其敏感等级为j，对应的隐私预算为∈_j，其中1≤j≤k。

步骤S4、用户使用填充采样技术对所发送数据进行处理，使得数据长度等于l。填充采样技术可以消除集值数据长度不统一导致扰动范围过大的问题，具体操作过程如下：

S41：设置填充长度l与填充数据集D_l＝{⊥₁,⊥₂,...,⊥_l-1}，其中1≤l≤d。l应大于等于所有用户数据中90％数据的长度，D_l中的每一项数据在D中都不存在，只是用来对数据进行填充，没有统计意义。若用户数据均为单值数据，即每个用户每次仅发送一项数据时，可以直接跳过步骤S4，等价于令l＝1，

S42：假设用户u_i的数据集合X_i＝{x₁,x₂,...,x_m}，若m＜l则从D_l中随机选取l-m项数据加入X_i中；若m＞l则从X_i中随机选取m-l项数据删除。最终使得X_i长度等于l；

S43：从处理后的X_i中随机抽取一项数据，用这项数据替代X_i，仅对这一项数据进行扰动，从而不需要将隐私预算分配给X_i中的每一项数据。

步骤S5、用户计算填充后值域D′的大小d′＝|D|+l-1，根据d′选择GRR协议或OLH协议对数据进行扰动：

其中，

为方差临界值，当

时，使用GRR协议与OLH协议扰动的方差相等。因此将d′与

进行比较，选择方差更小的协议作为扰动协议。将扰动结果与敏感等级发送给服务器。其中两个协议的具体内容如下：

本地差分隐私中对数据的扰动采用随机响应机制，即在输入值域内通过一个概率公式对数据进行保留或替换操作。用Ψ表示扰动算法，假设用户u_i的隐私预算为∈_j，则GRR协议可定义为：

其中，y、x为填充后的值域D′中的任意数据，包括D和D_l，Pr[Ψ_GRR(x)＝y]表示算法Ψ输入x输出y的概率，GRR表示算法满足的扰动协议。

当

时，使用OLH协议的误差要比使用GRR协议小。在OLH协议中每个用户使用不同的哈希函数将输入数据映射到一个长度为g的集合中，其中

用H_i表示用户u_i使用的哈希函数，则OLH协议可定义为：

扰动后不再发送X_i，而是作为替代将该扰动后的数据发送给服务器，服务器在统计时再乘以l。

本发明的另一个实施例提供一种基于敏感等级划分的数据扰动装置，包括：

以及，

本实施例中，初始化模块具体用于，

本实施例中，第一计算模块具体用于，计算用户发送数据的综合敏感度如下：

其中，S_i表示用户u_i的综合敏感度，Q(·)表示打分函数，X_i＝{x₁,x₂,...,x_m}表示用户u_i发送的数据集合，其中x₁,x₂,…,x_m∈D且1≤m≤d，D＝{x₁,x₂,…,x_d}表示输入值域，m表示用户发送数据个数，d表示输入值域数据个数，

本实施例中，第二计算模块具体用于，

若用户数据均为单值数据，则不进行填充采样。

本实施例中，扰动模块具体用于，

从处理后的X_i中随机抽取一项数据，按以下方式选择相应的协议对所选择数据进行扰动：

其中，

为方差临界值，d′＝|D|+l-1表示填充后值域的大小，满足

时，采用OLH协议对用户发送数据进行扰动；

时，采用GRR协议对用户发送数据进行扰动。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。