CN116340992A

CN116340992A - 基于自适应的高维度数据的本地化差分隐私保护方法

Info

Publication number: CN116340992A
Application number: CN202310142735.7A
Authority: CN
Inventors: 申兴发; 耿春桐; 吴海董; 叶岩明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-06-27

Abstract

本发明公开了一种基于自适应的高维度数据的本地化差分隐私保护方法，采用粗糙集理论和互信息，对不同关联性和敏感度的数据进行聚类分组，对不同分组采用不同随机响应概率，进行永久随机响应和临时随机响应。对本地化差分隐私处理后的数据，集中在服务器端使用SNE方法进行降维和自适应采样梯度优化，用低维数据联合概率分布近似所有属性的联合分布，根据采样策略与近似的联合分布构成发布数据集。本发明解决了存在“维度灾难”的高维数据与本地化差分隐私相结合且最大程度保持数据关联性问题，并根据数据敏感度不同在一定程度上更加合理的分配隐私预算，提高数据可用性，降低通信代价。

Description

基于自适应的高维度数据的本地化差分隐私保护方法

技术领域

本发明涉及数据隐私保护中的差分隐私领域，具体涉及基于自适应的高维度数据的本地化差分隐私保护方法。

背景技术

智能设备的发展导致众多传感器应用于日常生活中，在大数据的时代背景下，个人隐私信息安全越来越引起人们的注意，例如，基于位置的服务(Location-BasedServices，LBS)、移动群智感知(Mobile Crowd-Sensing，MCS)等，它们在向用户提供服务的同时，还会搜集用户的位置信息。隐私信息的脱敏保护能很好的保护隐私信息安全，因此出现了各种保护隐私信息的手段，例如K-匿名机制、安全多方计算、假名机制、差分隐私等，而其中差分隐私具有可以抵抗拥有各种背景知识的攻击对手的能力，并且相较于其他保护手段，差分隐私能够量化分析隐私模型的保护程度。

在2006年，针对统计数据库的隐私泄露问题，D.Work提出了差分隐私。差分隐私保护采用添加噪声的技术使敏感数据失真，是基于数据失真的隐私保护技术。但是其所需要加入的噪声量与数据集大小无关，即使对于大型数据集只要加入很少的噪声就能达到高级别的隐私保护。中心化差分隐私在具有可信第三方的情况下表现较好，但是该假设在现实情况中不一定成立，本地化差分隐私具有强隐私保护性,能够防止来自不可信第三方的隐私攻击,对敏感信息提供了更全面的保护。

目前,本地化差分隐私保护技术的研究主要还是针对简单的数据类型,例如对包含一个或多个属性的关系数据和集值数据,进行频数统计或均值统计。然而,简单的数据类型对于当下空前的数据分析需求而言,还远远不够。对于具有关联性的数据，差分隐私的保护效果并不是很理想，针对于目前的图结构等复杂数据类型，难点在于图的结构特点使得查询的全局敏感性极高,从而使得噪声过大。基于本地化差分隐私技术的图数据发布,虽然不存在敏感性过大的问题,但是由于每个用户对数据的扰动过程相互独立,数据收集者如何根据扰动后的数据构建可用性高的图结构成为一个难题,例如，使用互信息等量化方法会破坏数据间的关联性，即如何保证原始数据之间的关联性是一大挑战。现有的大部分高维数据的发布技术都是基于集中场景的，比如基于中心化差分隐私的发布技术，但是现实生活中，第三方或服务器多数是不可信的。综上，高维数据间的复杂属性关联以及关联属性同时变化所导致的敏感度问题和分布式环境下的高维度发布问题仍然是亟待解决。

现有研究在满足差分隐私的基础上将高维数据的联合概率分布分解为多个低维的边缘概率分布的形式,以多个边缘概率通过某种推理机制近似估计联合概率分布。但是存在的问题是如果要进行分割那势必要考虑数据属性间的关联性，那么就要对两两属性之间的关联度进行判断，当有n个属性时，存在

种对应的关联性，这就要把隐私预算进行

次分割，肯定会带来很大的噪声，那么最后推理联合概率密度时肯定会出现很大的误差。使用聚类或者分组的方法给数据降维，依旧存在通信代价大的问题。而从不同维度上进行采样降维又会导致数据的可用性下降。而且对不同敏感度的数据人为进行隐私预算分配也会导致噪声过大的问题，数据会失去可用性。

发明内容

基于上述提出现有研究方法所遇到的问题和不足之处，本发明提供一种基于自适应的高维度数据的本地化差分隐私保护方法。

本发明的目的在于提出一种基于粗糙集分类后，根据数据敏感度进行自适应采样和自适应隐私预算分配的本地化差分隐私高维数据发布方法，以解决存在“维度灾难”的高维数据与本地化差分隐私相结合且最大程度保持数据关联性的问题，并根据数据敏感度不同在一定程度上更加合理地分配隐私预算，提高数据可用性，降低通信代价。

为实现上述目的，本发明采用的技术方案是采用粗糙集理论和互信息，对不同关联性和敏感度的数据进行聚类分组，对不同分组采用不同随机响应概率，进行永久随机响应和临时随机响应。对本地化差分隐私处理后的数据，集中在服务器端使用SNE方法进行降维和自适应采样梯度优化，用低维数据联合概率分布近似所有属性的联合分布，根据采样策略与近似的联合分布构成发布数据集。

基于自适应的高维度数据的本地化差分隐私保护方法，具体包括如下步骤：

步骤1、本地数据的预处理：

使用粗糙集理论评估数据间的关联性并计算每组数据属性间的互信息，根据关联性和互信息对所有数据使用聚类的方法进行分组。

步骤2、制定随机响应概率策略：

根据上一步计算出的每组数据属性间的互信息，进行随机响应概率设置，需要设置的概率有两部分，第一部分是进行永久随机响应时的响应概率f，第二部分是进行临时随机响应时的概率p和q，前者为负向数据翻转为正向数据的概率，后者为正向数据保持不变的概率，同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率。

步骤3、对数据进行本地化差分隐私处理：

选定响应参数后对步骤1分组好的数据进行本地化差分隐私处理，将二进制数据进行一次随机响应后存储在本地端，即永久随机响应，当有服务端请求查询本地端的数据时再进行一次随机响应，将响应后的数据发送给服务端，即临时随机响应。

步骤4、使用SNE方法进行降维：

将高维数据的联合概率分布分解为多个低维的边缘概率分布的形式,以多个边缘概率推理近似估计联合概率分布。通过SNE方法构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。SNE在低维空间里再构建这些点的概率分布，使得这两个概率分布之间尽可能地相似。

步骤5、自适应采样：

使用基于辅助信息的自适应采样方法对SNE降维进行梯度优化。

步骤6、数据集合成：

数据降维完成后，根据自适应采样概率和需求的数据量生成新的数据集进行发布。

进一步的，将SNE中的高斯分布替换成t分布，进一步进行优化。对于相似度大于规定阈值的点，t分布在低维空间中的距离需要稍小一点；而对于相似度低于规定阈值的点，t分布在低维空间中的距离需要更远。即同一簇内的点(距离较近)聚合的更紧密，不同簇之间的点(距离较远)更加疏远。

本发明具有以下有益效果：

本发明提供的基于自适应采样梯度优化的SNE降维的高维度数据的本地化差分隐私保护发布方法，发布了一个新的合成数据集，在最大程度的保持高维数据的数据可用性情况下，保护了每一个用户的数据隐私安全，可以应对全背景知识的攻击对手，根据数据的敏感度和关联性合理分配隐私预算，降低了信噪比和通信代价。

该发明在避免了第三方或服务器不可信情况下的数据泄露情况，并且一定程度上解决了高维数据的“维度灾难”问题，将本地化差分隐私与SNE数据降维相结合，并自适应进行采样梯度优化，将高维数据划分为多个相互独立的低维属性集，保证合成数据集与原始数据集具有相似的分布概率，以及统计学性质。解决了多传感器产生大量高维数据情况下保持数据可用性的用户数据的本地化隐私保护问题。

附图说明

图1为本发明实施例的整体流程图；

图2为本地化差分隐私的整体流程图；

图3为中心化差分隐私与本地化差分隐私的对比示意图；

图4为属性分类的流程图。

具体实施方式

下面结合附图对本发明做进一步详细描述。

首先参照图2是整个本地化差分隐私的通信过程，用户在本地端产生数据，通过基站或热点发送给服务器或第三方，服务端处理后发布数据供查询方进行数据分析。图3展示了中心化差分隐私与本地端差分隐私的过程对比，证明了本地端差分隐私可以避免第三方数据收集者不可信的情况。

参照图1是本发明的整理操作流程图，本发明提供的基于自适应采样梯度优化的SNE降维的高维度数据的本地化差分隐私保护发布方法，在用户产生原始数据后，在本地端以粗糙集理论和敏感度计算为基础将数据分组并进行随机响应概率设置。将分组后数据按照给定概率进行永久随机响应，在服务器请求时再进行临时随机响应发送给服务端，在服务端对高维数据进行SNE降维，并根据自适应采样优化梯度选择，同时为了更好的进行优化，将SNE中在低维空间下的高斯分布替换为t分布来表示两点之间的相似度，t分布受异常值影响更小，拟合效果也更优，能够更好的保持数据整体特征。采样后进行新数据集的合成，最后发布数据。具体实施步骤如下：

步骤1，本地数据的预处理：

这一步的主要目的就是评估数据的敏感度和关联性，为数据分组和随机响应概率分配提供数据依据。

步骤1-1，根据粗糙集理论计算数据的关联性：

通过粗糙集理论中属性依赖度的概念，对数据属性的关联性进行度量，获取每个属性由不可区分关系引起的等价类，对于连续属性值进行划分，使其成为离散型数值。根据如下公式，基于各个属性相对于其他属性，获得论域U的子集的下近似和上近似：

粗糙集理论中，知识是使用信息表或信息系统进行表示的，一个信息表能够用一个四元组s＝(U,A,V,f)表示，U是一个非空有限对象集，A是一个非空有限属性集，B表示属性集A的任何子集，V＝∪_a∈AV_a，V_a是属性a的值域，f是从样本空间到属性空间的信息函数，X表示U的任意子集，x是论域U上的一个元素，等价关系在论域U上构成一个知识划分，用U/B表示，U/B中任一元素[x]_B称为等价类，B^-(X)和B⁺(X)分别表示X的B下近似和上近似。

然后根据数据间的关联性进行属性子集划分，即按照数据关联性将数据进行分组，相同属性子集中的数据关联性大，反之，不同属性子集间关联性小。图4为属性分类的流程图。

步骤1-2，根据互信息计算数据的敏感度：

信息熵是指接收的每条信息中包含的信息的平均量，而互信息是更广泛的相对信息熵的特殊形式，在信息熵中，将一个等价类划分看作一个概率分布，在论域U中每个等价类所占比例看作是这个等价类发生的概率，对于信息表s＝(U,A,V,f)，

U/B＝{X₁,X₂,…,X_n}，属性B上的信息熵H(B)为：

其中p(X_i")表示等价类X_i"在论域U中所占的比例。以此计算出每一个属性子集中各个属性的信息熵，然后根据如下公式计算出每个分组数据间的互信息：

其中(X,Y)为两个随机变量，其联合概率分布为p(x,y)，对应的边缘分布分别为p(x)和p(y)，互信息I(X；Y)是联合概率p(x,y)与边缘分布p(x)p(y)的相对熵。使用数据间的互信息衡量数据敏感度，两个数据间的互信息越大，数据间的敏感度也就越大。

步骤2，制定随机响应概率策略：

根据上一步计算出的每个分组中数据间的互信息，进行随机响应概率设置，需要设置的概率有两部分，第一部分是进行永久随机响应时的响应概率f，第二部分是进行临时随机响应时的概率p和q，前者为负向数据翻转为正向数据的概率，后者为正向数据保持不变的概率，同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率。

步骤3：对数据进行本地化差分隐私处理：

选定好响应参数后对分组后的数据进行本地化差分隐私处理，将二进制数据进行一次随机响应后存储在本地端，即永久随机响应，当有服务端请求查询本地端的数据时再进行一次随机响应，将响应后的数据发送给服务端，即临时随机响应。

步骤3-1，对分组数据进行永久随机响应：

每一组数据依据给定的概率f按照以下情形进行变化：

将永久随机响应后的数据存储在本地端，当服务端发出查询请求时，再将存储在本地端的数据进行临时随机响应然后发布。

步骤3-2，对永久随机响应后的数据进行临时随机响应：

对于进行永久随机响应后的数据，B'_i"为1的数据以概率p保持不变，以1–p的概率变化为0，B'_i"为0的数据以概率q变为1，以1–q的概率保持不变，即：

根据服务端的请求将完成临时随机响应后的数据发布给服务端，此时发送给服务端的数据已经不是按照之前的分组发送给服务端的，而是按照服务端的请求发送的一个数据集。

步骤4，使用SNE方法进行降维：

对服务端在步骤3发布的临时随机响应后的数据进行SNE降维。SNE方法通过仿射变换将数据点映射到概率分布上，构建一个高维对象之间的概率分布，相似对象之间有更高概率被选择，反之，不相似对象被选择的概率低。首先将数据点之间的欧几里得距离转换为条件概率来表达点与点之间的相似度，后续提到的数据间的相似度也使用条件概率来表示，获取n个临时随机响应后的高维数据r₁,...，r_n，计算数据r_i和r_j之间的概率分布p_ij，在数值上p_ij正比于r_i和r_j之间的相似度，用以r_i为中心，以高斯分布选择r_j为近邻点的条件概率p_j|i来表示r_i和r_j之间的相似度：

其中i、j和m的取值范围都是1到n，参数σ_i为高斯分布方差，对于不同的点r_i取值是不同的，而且数据对于自身的相似度设置为0，因为要考虑的只有数据间的相似关系。以r_j为中心，以高斯分布选择r_i为近邻点的条件概率p_i|j来表示高维空间下r_j和r_i之间的相似度,此外设置p_i|i＝0，r_m为n个数据中非r_i的数据点。

在低维空间里再构建这些数据的概率分布，使两个概率分布尽可能相似，对于低维度下的数据制定高斯分布的方差为

计算低维空间数据间的相似度为：

q_i|j表示低维空间下r_j和r_i之间的相似度。当p_i|j＝q_i|j时，即高维空间数据相似度将等于低维空间数据相似度，那么说明降维效果较好，局部特征保留完整,因此接下来优化两个分布之间的距离KL散度，目标函数为：

其中，P_i表示给定点r_i情况下其他数据点的真实条件概率分布，Q_i表示对应的理论分布，在低维映射中不同距离对应的惩罚权重不同。SNE倾向于保留数据中的局部特征，使用困惑度的概念，即一个点附近的有效近邻点个数，用二分搜索寻找最优的σ。在初始优化的阶段，每次迭代中引入一定量高斯噪声，引入的噪声量根据具体数据确定，之后使用模拟退火的方式逐渐减小该噪声，避免陷入局部最优解。学习率以及衰减时间等超参数的选取随数据变化取值不同。

步骤5，自适应采样：

根据步骤4提到的方法，SNE对困惑度的调整比较具有鲁棒性，选择5–50之间，然后使用二分搜索法寻找合适的σ，使用SGD优化算法求解梯度，在更新过程中需要随机选择一个样本i^t，其优化更新过程为：

θ^t＝θ^t-1-γ^td^t

d^t为输入样本i^t时，性能函数f对参数θ^t-1的导数，即梯度，θ^t为更新后模型参数向量，γ为学习率，为了避免随机选择的不确定性，选择基于辅助信息(side information)的自适应选择方法，辅助信息即样本的某些属性值，定义C_k为服务端接收到的数据集中辅助信息为k的实例集合，SGD最小化经验风险写为：

其中，D为数据的辅助信息属性集合，n为服务端收到数据集的样本个数，P(i')为从整个数据集采样单个实例的概率，p_k为从C_k中采样一个实例的概率，通过设置概率p_k来调整SGD的优化过程。

在确定数据集的辅助信息后，利用辅助信息将服务端收到的数据集划分为k组，比如数据集的辅助信息属性集合包括1，2，3三种属性，那么则可以将数据集划分为C₁、C₂、C₃三组，然后计算出每个组的选择概率p_k，根据p_k计算采样单个实例的概率P(i')和梯度d^t，最后计算并更新模型参数θ。SNE的目标函数中的i在j下的条件概率的梯度是2(p_i|j-q_j|i)(y_i-y_j)，同理j在i下的条件概率梯度是2(p_j|i-q_j|i)(y_i-y_j)，最后得到完整梯度：

y_i和y_j为低维度下的数据点，其中i、j的取值范围都是从1到n，参数更新除了当前的梯度，还要引入之前的梯度累加的指数衰减项，如下：

其中，Y^(t)表示迭代t次的解，η表示学习率，α(t)表示迭代t次的动量。

在低维空间下，将原来SNE中的高斯分布替换成t分布来表示两个数据点之间的相似度。使用t分布后，利用联合概率分布来替换条件概率分布，即P是高维空间里各个点的联合概率分布，Q是低维空间下的联合概率分布，目标函数为:

其中p_ij和q_i|j为p_i|j和q_i|j对应的联合概率分布，p_ii和q_ii为0，假设对于任意的i，p_ij＝p_ji，q_ij＝q_ji，低维空间下数据间相似度为：

优化梯度为：

步骤6，数据集合成：

数据降维完成后，在每一个分组随机选择一部分初始节点，然后根据上一步计算得到的选择概率P(i')进行数据采样，选择未采样数据根据低维空间下的数据相似度q_ij进行采样，选择与已选定节点相似度高的节点作为新的初始节点，根据新的初始节点重复步骤6中的数据采样和新的初始节点选取过程，直至达到需要的数据量，合成新的数据集。

最后，以上述具体实施例为启示，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，具体包括如下步骤：

步骤1、本地数据的预处理：

使用粗糙集理论评估数据间的关联性并计算每组数据属性间的互信息，根据关联性和互信息对所有数据使用聚类的方法进行分组；

步骤2、制定随机响应概率策略：

根据上一步计算出的每组数据属性间的互信息，进行随机响应概率设置，需要设置的概率有两部分，第一部分是进行永久随机响应时的响应概率f，第二部分是进行临时随机响应时的概率p和q，前者为负向数据翻转为正向数据的概率，后者为正向数据保持不变的概率，同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率；

步骤3、对数据进行本地化差分隐私处理：

选定响应参数后对步骤1分组好的数据进行本地化差分隐私处理，将二进制数据进行一次随机响应后存储在本地端，即永久随机响应，当有服务端请求查询本地端的数据时再进行一次随机响应，将响应后的数据发送给服务端，即临时随机响应；

步骤4、使用SNE方法进行降维：

将高维数据的联合概率分布分解为多个低维的边缘概率分布的形式,以多个边缘概率推理近似估计联合概率分布；通过SNE方法构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择；SNE在低维空间里再构建这些点的概率分布，使得这两个概率分布之间尽可能地相似；

步骤5、自适应采样：

步骤6、数据集合成：

2.根据权利要求1所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，将SNE中的高斯分布替换成t分布，进一步进行优化。

3.根据权利要求1或2所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，步骤1具体方法如下：

步骤1-1，根据粗糙集理论计算数据的关联性：

通过粗糙集理论中属性依赖度的概念，对数据属性的关联性进行度量，获取每个属性由不可区分关系引起的等价类，对于连续属性值进行划分，使其成为离散型数值；根据如下公式，基于各个属性相对于其他属性，获得论域U的子集的下近似和上近似：

粗糙集理论中，知识是使用信息表或信息系统进行表示的，一个信息表能够用一个四元组s＝(U,A,V,f)表示，U是一个非空有限对象集，A是一个非空有限属性集，B表示属性集A的任何子集，V＝∪_a∈AV_a，V_a是属性a的值域，f是从样本空间到属性空间的信息函数，X表示U的任意子集，x是论域U上的一个元素，等价关系在论域U上构成一个知识划分，用U/B表示，U/B中任一元素[x]_B称为等价类，B^-(X)和B⁺(X)分别表示X的B下近似和上近似；

然后根据数据间的关联性进行属性子集划分，即按照数据关联性将数据进行分组，相同属性子集中的数据关联性大，反之，不同属性子集间关联性小；

步骤1-2，根据互信息计算数据的敏感度：

U/B＝{X₁,X₂,…,X_n}，属性B上的信息熵H(B)为：

其中p(X_i")表示等价类X_i"在论域U中所占的比例；以此计算出每一个属性子集中各个属性的信息熵，然后根据如下公式计算出每个分组数据间的互信息：

其中(X,Y)为两个随机变量，其联合概率分布为p(x,y)，对应的边缘分布分别为p(x)和p(y)，互信息I(X；Y)是联合概率p(x,y)与边缘分布p(x)p(y)的相对熵；使用数据间的互信息衡量数据敏感度，两个数据间的互信息越大，数据间的敏感度也就越大。

4.根据权利要求3所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，步骤3具体方法如下：

步骤3-1，对分组数据进行永久随机响应：

每一组数据依据给定的概率f按照以下情形进行变化：

将永久随机响应后的数据存储在本地端，当服务端发出查询请求时，再将存储在本地端的数据进行临时随机响应然后发布；

步骤3-2，对永久随机响应后的数据进行临时随机响应：

5.根据权利要求4所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，步骤4具体方法如下：

在服务端对步骤3发布的临时随机响应后的数据进行SNE降维；SNE方法通过仿射变换将数据点映射到概率分布上，构建一个高维对象之间的概率分布，相似对象之间有更高概率被选择，反之，不相似对象被选择的概率低；首先将数据点之间的欧几里得距离转换为条件概率来表达点与点之间的相似度，后续提到的数据间的相似度也使用条件概率来表示，获取n个临时随机响应后的高维数据r₁,...，r_n，计算数据r_i和r_j之间的概率分布p_ij，在数值上p_ij正比于r_i和r_j之间的相似度，用以r_i为中心，以高斯分布选择r_j为近邻点的条件概率p_j|i来表示r_i和r_j之间的相似度：

其中i、j和m的取值范围都是1到n，参数σ_i为高斯分布方差，对于不同的点r_i取值是不同的，而且数据对于自身的相似度设置为0，因为要考虑的只有数据间的相似关系；以r_j为中心，以高斯分布选择r_i为近邻点的条件概率p_i|j来表示高维空间下r_j和r_i之间的相似度,此外设置p_i|i＝0，r_m为n个数据中非r_i的数据点；

计算低维空间数据间的相似度为：

q_i|j表示低维空间下r_j和r_i之间的相似度；当p_i|j＝q_i|j时，即高维空间数据相似度将等于低维空间数据相似度，那么说明降维效果较好，局部特征保留完整,因此接下来优化两个分布之间的距离KL散度，目标函数为：

其中，P_i表示给定点r_i情况下其他数据点的真实条件概率分布，Q_i表示对应的理论分布，在低维映射中不同距离对应的惩罚权重不同。SNE倾向于保留数据中的局部特征，使用困惑度的概念，即一个点附近的有效近邻点个数，用二分搜索寻找最优的σ；在初始优化的阶段，每次迭代中引入一定量高斯噪声，引入的噪声量根据具体数据确定，之后使用模拟退火的方式逐渐减小该噪声，避免陷入局部最优解；学习率以及衰减时间等超参数的选取随数据变化取值不同。

6.根据权利要求5所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，步骤5具体方法如下：

θ^t＝θ^t-1-γ^td^t

d^t为输入样本i^t时，性能函数f对参数θ^t-1的导数，即梯度，θ^t为更新后模型参数向量，γ为学习率，为了避免随机选择的不确定性，选择基于辅助信息的自适应选择方法，定义C_k为服务端接收到的数据集中辅助信息为k的实例集合，SGD最小化经验风险写为：

其中，D为数据的辅助信息属性集合，n为服务端收到数据集的样本个数，P(i')为从整个数据集采样单个实例的概率，p_k为从C_k中采样一个实例的概率，通过设置概率p_k来调整SGD的优化过程；

在确定数据集的辅助信息后，利用辅助信息将服务端收到的数据集划分为k组，然后计算出每个组的选择概率p_k，根据p_k计算采样单个实例的概率P(i')和梯度d^t，最后计算并更新模型参数θ；SNE的目标函数中的i在j下的条件概率的梯度是2(p_i|j-q_j|i)(y_i-y_j)，同理j在i下的条件概率梯度是2(p_j|i-q_j|i)(y_i-y_j)，最后得到完整梯度：

7.根据权利要求6所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，在低维空间下，将原来SNE中的高斯分布替换成t分布来表示两个数据点之间的相似度；使用t分布后，利用联合概率分布来替换条件概率分布，即P是高维空间里各个点的联合概率分布，Q是低维空间下的联合概率分布，目标函数为:

其中p_ij和q_ij为p_i|j和q_i|j对应的联合概率分布，p_ii和q_ii为0，对于任意的i，p_ij＝q_ji，q_ij＝q_ji，低维空间下数据间相似度为：

优化梯度为：

8.根据权利要求6或7所述的基于自适应的高维度数据的本地化差分隐私保护方法，其特征在于，步骤6，数据集合成：