CN112580701B

CN112580701B - 一种基于分类变换扰动机制的均值估计方法及装置

Info

Publication number: CN112580701B
Application number: CN202011428994.9A
Authority: CN
Inventors: 朱素霞; 王蕾; 孙广路
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-07-12
Anticipated expiration: 2040-12-09
Also published as: CN112580701A

Abstract

一种基于分类变换扰动机制的均值估计方法及装置，属于信息安全技术领域，该机制采用了数据变换扰动的方式，将数值型数据划分变换范围并进行分段，根据分段将其变换为一维二元分类数据；对转换后的数据使用随机响应机制进行扰动，再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值；与其他方法相比，该方法在满足本地差分隐私机制的同时，在数据分析任务如均值估计中能获得较高的数据效用性，得到的模型的分类准确性要更高，性能要更好。

Description

一种基于分类变换扰动机制的均值估计方法及装置

技术领域

本发明属于信息安全技术领域，具体涉及一种基于分类变换扰动机制的均值估计方法及装置。

背景技术

本地差分隐私机制作为差分隐私的分支，提供了比差分隐私还要强大的隐私保障，其最典型的扰动机制是随机响应机制。在本地差分隐私中，假设服务器是不可信的，用户不直接将原始数据发给服务器，而是在本地对数据进行扰动使其满足本地差分隐私，然后再将扰动后的数据发送给服务器。服务器对收集的噪声数据进行相应的数据分析任务，得到所需的统计信息。使用本地差分隐私进行隐私保护不需要进行大量复杂的运算，并且可以在获得较为准确的统计信息的同时有效的保障用户数据的隐私性，从而避免了用户隐私泄露的问题。

由于有上述优势，本地差分隐私机制广泛地应用于各个领域，例如：统计数据库、图像处理、隐私保护数据发布以及隐私保护数据挖掘等。而近年来，针对不同类型数据，也提出了很多本地差分隐私方法，而且在实际的应用中也取得了很多的成果。但是，现有的本地差分隐私机制的准确性较差，仍具有较大的提升空间。并且这些方法大多直接对数据进行扰动，忽略了转换数据类型进行扰动的可能性，忽略了可以通过变换数据类型进行扰动以平衡数据的效用性和隐私性的可能性。

发明内容

为解决上述问题，本发明提供了一种基于分类变换扰动机制的均值估计方法，所述方法包括步骤：

对数据进行预处理，将数据映射到-1到1的范围；

将数值型数据以数据点为中心划分成四段；

将数据根据划分的数据段进行随机抽取，转换为一维二元分类数据；

采用随机响应机制对转换后得到的分类数据进行扰动；

根据扰动后数据对应的数据段，在该数据段随机均匀抽取一个值作为其扰动后的数值型数据；

将所有的数据使用该扰动机制进行扰动；

使用扰动后数据计算属性均值；

计算数据扰动后得出的均值与未扰动的均值的绝对误差。

优选地，所述数据映射的表达公式为：

其中，v表示用户的原始数据，U表示该属性的最大值，L表示该属性的最小值，v′表示该值经过映射之后得到的值。

优选地，所述数据转换的计算公式为：

其中，数据划分时将数据分成了四段，l₁代表数据进行分段之后的最左边的端点，l₂代表数据划分后第二段的左端点，R₁代表数据划分后第三段的右端点，R₂代表数据划分之后最右边的端点。

优选地，所述的数据划分的计算公式为：

m＝d/2

l₁＝v′-d

l₂＝v′-m

R₁＝v′+m

R₂＝v′+d

其中，v′表示数据映射之后得到的数据，d表示数据变换的范围，即左右两端距离原始数据的距离，m为取d的一半，α为引入的距离参数，ε为扰动过程中使用的隐私预算。

优选地，所述数据扰动的计算公式为：

其中，f代表扰动时数据改变的概率，设置为

1-f则表示扰动时数据不变的概率，ε表示扰动时使用的隐私预算的值，v_i代表的是用户i原始数据，

代表的是扰动结束之后获得的数据。

优选地，所述扰动公式的求解过程为：

其中Pr(·)代表求解的概率，v代表原始数据，

代表扰动后得到的数据，ε代表隐私预算，f代表扰动后数据改变的概率。

优选地，所述分逆变换的计算公式为：

其中retra(·)代表的是进行逆变换的操作，

代表的是一维二元分类数据扰动后得到的值。

优选地，所述计算均值估计包括步骤：

计算扰动前属性均值；

计算扰动后属性均值；

计算扰动前后均值的绝对误差。

本发明还提供了一种基于分类变换扰动机制的均值估计装置，所述装置包括：

数据预处理，用于将数据映射到-1到1的范围；

数据划分计算，用于将数据进行分段，用于后续进行分类变换以及分类逆变换；

分类变换，用于将数据根据划分之后的数据段，转换为一维二元分类数据；

数据扰动，用于对转换后获得的分类数据，使用随机响应机制对其进行扰动，得到一个扰动后的分类数据；

分类逆变换，用于将扰动后的数据，根据所述的数据段，逆变换为数值型数据；

均值绝对误差估计，用于计算扰动后属性均值与扰动前属性均值均方误差。

本发明提供的一种基于分类变换扰动机制的均值估计方法及装置，具有以下优势：

(1)使用了变换数据类型的方法，使得扰动在满足差分隐私条件给用户提供良好的隐私性的同时，可以提供较高的数据效用性；

(2)使用随机响应机制对转换后的分类型数据进行扰动，在给用户数据提供隐私保障的同时，可以确保服务器获得较为准确有效的统计信息；

(3)在计算变换范围d时引入了隐私预算ε，可以有效的根据隐私强度的需求对数据变换范围进行动态调整，使得扰动操作能够更加贴切用户的隐私需求；

(4)所述装置的数据变换计算单元，将数值型数据通过数据变换变成一维二元分类数据，再进行扰动操作，而不是直接对原始数据进行扰动，并且在将扰动后的分类数据转换回数值型数据时，采用了随机均匀抽取的方式，在分类数据代表的数据段中随机均匀抽取一个数来代表扰动后的数值型数据，通过实验可知采用转换数据类型进行扰动的方式要比传统的直接对原数据类型进行扰动的方法更有效，可以更好的平衡数据的隐私性和效用性，解决了传统的本地差分隐私机制应用到数据分析任务准确性较低的问题；

所述装置的扰动机制单元，在对转换后的分类型数据进行扰动时，采用了经典的分类数据扰动机制即随机响应机制，该机制有概率f将数据转换为另一类数据，有1-f的概率数据保持不变，该机制使得数据的扰动满足差分隐私，给数据带来足够的隐私保障，同时保障在数据进行相关的统计任务时获得统计结果的准确性；

所述装置的变换范围计算单元，在计算扰动数据的最大变换范围时引入了隐私预算来对范围进行动态调节，若是单一的定义一个扰动范围，那将无法很好的确定一个合适的值，有很大可能会使得扰动后的数据效用性低，并且当隐私需求变换时无法很好的贴切数据的隐私性，例如在设置变换范围时，为了满足强隐私需求，可能会将变换范围设置的尽可能的大，但是当所需的隐私需求较弱时，这个变换范围值将不再适合，将使得数据效用性变差，引入隐私预算之后，变换范围可以根据用户的隐私需求的强弱进行变化，进一步提高了用户数据的效用性，同时也保障了数据的隐私性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于分类变换扰动机制的均值估计方法的流程图；

图2是使用本发明提供的一种基于分类变换扰动机制的均值估计装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1，本发明提供了一种基于分类变换扰动机制的均值估计方法，所述方法步骤如下：

步骤S1：对数据进行预处理，通过公式(1)将数据映射到-1到1的范围，

其中，v表示用户的原始数据，U表示该属性的最大值，L表示该属性的最小值，v′表示该值经过映射之后得到的值；

步骤S2：通过公式(2-7)将数值型数据以数据点为中心划分为四段，

m＝d/2 (3)

l₁＝v′-d (4)

l₂＝v′-m (5)

R₁＝v′+m (6)

R₂＝v′+d (7)

其中，v′表示数据映射之后得到的数据，d表示数据变换的范围，即左右两端距离原始数据的距离，m为取d的一半，α为引入的距离参数，ε为扰动过程中使用的隐私预算；

公式(2)中不同α值计算均值估计得出的均值误差的折线图如图2所示；

步骤S3：将数据根据划分的数据段进行随机抽取，通过公式(8)将数据转换为一维二元分类数据，

其中，上一步骤数据划分时将数据分成了四段，l₁代表数据进行分段之后的最左边的端点，l₂代表数据划分后第二段的左端点，R₁代表数据划分后第三段的右端点，R₂代表数据划分之后最右边的端点；

步骤S4：采用公式(9)所示的随机响应机制对转换后的分类数据继续扰动，

其中，ε表示扰动时使用的隐私预算的值，v_i代表的是用户i原始数据，

代表的是扰动结束之后获得的数据，f代表扰动时数据改变的概率，1-f则表示扰动时数据不变的概率，

f的求解过程如下：

扰动机制应满足本地差分隐私，其定义为：

其中v和v′代表两种不同的原始数据，

代表扰动后得到的数据，Pr[·]代表求解的概率，设两种分类数据分别为0和1，则：

根据定义可得：

解得

步骤S5：计算出扰动后的值后，根据扰动后数据对应的数据段，使用公式(10)将其逆转换为数值型数据，

其中retra(·)代表的是进行逆变换的操作，

代表的是一维二元分类数据扰动后得到的值；

步骤S6：对于均值估计任务，将所有的数据使用该扰动机制进行扰动；

步骤S7：使用扰动后数据计算属性均值；

步骤S8：计算数据扰动后得出的均值与未扰动的均值的绝对误差，具体如下：

步骤S801：计算扰动前属性均值；

步骤S802：计算扰动后属性均值；

步骤S803：计算扰动前后属性均值的绝对误差，

其中，m_o代表属性的真实均值，m^*代表扰动后得到的属性均值，T代表运行的次数，为消除扰动时随机性带来的误差，将实验重复运行T次取均值；

通过本实施方式先对每一个数值型数据进行数据变换范围划分，然后将其转换为分类数据，再使用随机响应机制对转换后的数据进行扰动，随后，将扰动后的数据逆变换为数值型数据，最后将该机制分别用到均值估计任务中，再计算均值估计中属性均值的绝对误差；

如图2，在本申请实施例中，本申请还提供了一种基于分类变换扰动机制的均值估计装置，所述装置包括：

数据预处理单元10，用于将数据映射到-1到1的范围；

数据划分计算单元20，用于将数据进行分段，用于后续进行分类变换以及分类逆变换；

分类变换单元30，用于将数据根据划分之后的数据段，转换为一维二元分类数据；

数据扰动单元40，用于对转换后获得的分类数据，使用随机响应机制对其进行扰动，得到一个扰动后的分类数据；

分类逆变换单元50，用于将扰动后的数据，根据所述的数据段，逆变换为数值型数据；

均值估计绝对误差计算单元60，用于计算扰动后属性均值与扰动前属性均值均方误差；

本申请提供的一种基于分类变换扰动机制的均值估计方法及装置，可以结合本申请提供的一种基于分类变换扰动机制的均值估计方法进行运行，此处不再赘述。

关于本实施方式参数的设置，对于变换范围中引入隐私预算是本实施方式所采用的重要方法，如果不引入隐私预算，则意味着只能划分一个固定距离的变换范围，数据的效用性和隐私性将受到影响，随着隐私预算值变大，划分的变换范围将变小。

本实施方式提出了一种基于分类变换扰动机制的均值估计方法及装置，在均值估计任务中，对用户原始数据使用该机制进行扰动之后计算属性均值，在不同数据集上的实验结果表明，本实施方式相对于其他方法有着更高的准确性，有着更好的优越性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于分类变换扰动机制的均值估计方法，其特征在于，所述方法包括步骤：

其中，v表示用户的原始数据，U表示属性的最大值，L表示属性的最小值，v'表示该值经过映射之后得到的值；

步骤S2：通过公式2到7将数值型数据以数据点为中心划分为四段，

m＝d/2 (3)

l₁＝v'-d (4)

l₂＝v'-m (5)

R₁＝v'+m (6)

R₂＝v'+d (7)

其中，v'表示数据映射之后得到的数据，d表示数据变换的范围，即左右两端距离原始数据的距离，m为取d的一半，α为引入的距离参数，ε为扰动过程中使用的隐私预算；在计算变换范围d时引入了隐私预算ε，可以有效的根据隐私强度的需求对数据变换范围进行动态调整，使得扰动操作能够更加贴切用户的隐私需求；

其中，上一步骤数据划分时将数据分成了四段，l₁代表数据进行分段之后的最左边的端点，l₂代表数据划分后第二段的左端点，R₁代表数据划分后第三段的右端点，R₂代表数据划分之后最右边的端点；使用了变换数据类型的方法，使得扰动在满足差分隐私条件给用户提供良好的隐私性的同时，可以提供较高的数据效用性；

f的求解过程如下：

扰动机制应满足本地差分隐私，其定义为：

其中v和v'代表两种不同的原始数据，

根据定义可得：

解得

使用随机响应机制对转换后的分类型数据进行扰动，在给用户数据提供隐私保障的同时，可以确保服务器获得较为准确的统计信息；

其中retra(·)代表的是进行逆变换的操作，

代表的是一维二元分类数据扰动后得到的值；将数值型数据通过数据变换变成一维二元分类数据，再进行扰动操作，而不是直接对原始数据进行扰动，并且在将扰动后的分类数据转换回数值型数据时，采用了随机均匀抽取的方式，在分类数据代表的数据段中随机均匀抽取一个数来代表扰动后的数值型数据，通过实验可知采用转换数据类型进行扰动的方式要比传统的直接对原数据类型进行扰动的方法更有效，可以更好的平衡数据的隐私性和效用性，解决了传统的本地差分隐私机制应用到数据分析任务准确性较低的问题。

步骤S6：对于均值估计任务，将所有的数据使用该扰动机制进行扰动。

步骤S7：使用扰动后数据计算属性均值。

步骤S8：计算数据扰动后得出的均值与未扰动的均值的绝对误差。

2.根据权利要求1所述的分类变换扰动机制，其特征在于，所述计算均值估计包括步骤：

计算扰动前属性均值；

计算扰动后属性均值；

计算扰动前后均值的绝对误差。